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内 容 提 要 


本 书 注重 实用 性 ， 是 一 本 全 面 而 细致 的 R 指南 ， 高 度 概括 了 该 软件 和 它 的 强大 功能 ， 展 示 了 使 用 的 统 
计 示 例 ， 且 对 于 难以 用 传统 方法 处 理 的 凌乱 、 不 完整 和 非 正 态 的 数据 给 出 了 优雅 的 处 理 方法 。 作 者 不 仅仅 
探讨 统计 分 析 , 还 阐述 了 大 量 探索 和 展示 数据 的 图 形 功能 。 新 版 做 了 大 量 更 新 和 修正 ,新 增 了 近 200 页 内 容 ， 
介绍 数据 挖掘 、 预 测 性 分 析 和 高 级 编程 。 

本 书 适合 数据 分 析 人 员 及 R 用 户 学 习 参 考 。 
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“清晰 而 又 吸引 人 一 一 这 无 疑 是 学 习 R 的 有 趣 方式 !1” 
一 Amos A. Folarin， 伦 敦 大 学 学 院 


“做 好 准备 ， 用 有 R 创 建 出 高 品质 的 程序 ， 迅 速 提高 你 的 水 平 吧 














Patrick Breen， 罗 杰 斯 通信 公司 
“由 最 出 色 的 R 网 站 的 作者 编写 ， 是 一 本 优秀 的 R 语 言 人 门 书 和 参考 书 。” 

一 Christopher Williams， 爱 达 荷 大 学 
“这 本 书 既 详尽 又 易 读 ， 对 学 后 和 研究 者 来 说 都 是 优秀 的 R 指 南 。 
Samuel McQuillin， 南 卡罗来纳 大 学 














“终于 出 现 了 一 本 面向 R 初 学 者 的 全 面 的 入 门 书 1” 
一 一 Philipp K. Janert，Gnuplot in Action 作 者 





“一 本 每 个 首次 使 用 R 的 人 都 必需 的 读物 。” 

一 Charles Malpas， 墨 尔 本 大 学 
“ 它 是 熟练 掌握 R 的 最 快 途径 之 一 。 周 五 购买 这 本 书 ， 你 在 下 周一 就 能 写 出 可 运行 的 程序 。” 
Elizabeth Ostrowski， 贝 勒 医学 院 
“人 们 通常 买书 来 解决 他 们 已 知 的 问题 ， 而 这 本 书 则 能 解决 你 尚未 察 党 的 问题 。 
Carles Fenollosa，Barcelona 超 算 中 心 


“清晰 、 准 确 ， 而 且 带 有 很 多 解释 和 例子 …… 这 本 书 可 以 给 初学 者 使 用 ， 也 可 以 给 专业 人 士 
使 用 ， 甚 至 可 以 用 于 R 语 言 教学 !” 















































一 一 AtefOuni， 突 尼斯 国家 统计 局 


“这 本 书 既 提供 了 有 针对 性 的 教程 ， 又 给 出 了 深度 讲解 的 示例 。” 

















Landon Cox, 360V]1 Inc 


致谢 





很 多 人 都 对 本 书 精益 求 精 并 付出 了 辛勤 的 劳动 ， 在 此 让 我 对 他 们 一 一 表示 感谢 。 





























我 电话 沟通 ， 帮 我 组 织 材料 、 理 清 概 念 、 润 色 文字 。 
口 Pablo Dominguez Vaselli ， 技 术 审 读 人 ， 帮 我 理 清 了 很 多 






































口 Marjan Bace，Manning 出 版 人 ， 最 初 劝 说 我 编写 本 书 的 人 。 
口 Sebastian Stirling 和 Jennifer Stout， 他 们 分 别 是 第 1 版 和 第 2 版 的 进度 编辑 ， 花 了 大 量 时 间 与 

















易 混 消 的 地 方 ， 从 独立 而 专业 的 





角度 测试 了 代码 。 我 依赖 于 他 的 博学 ， 他 仔细 阅读 后 的 评论 以 及 深思 熟 虑 后 的 判断 。 
D Olivia Booth， 书评 编辑 。 他 帮忙 找 评 论 人 、 并 帮助 协调 整个 评论 过 程 。 











口 Karen Tegtmeyer， 评 审 编辑 ， 帮 助 寻找 审 稿 人 并 协调 评 和 





Tudor， 他 们 指导 了 本 书 的 出 版 过 程 。 





进度 。 


口 Mary Piergies 及 其 团队 成 员 Tiffany Taylor、 Toma Mulligan、Janet Vail 、David Novak 和 Marija 





口 所 有 花费 时 间 审 读本 书 内 容 ， 寻 找 书写 错误 和 提供 了 宝贵 建议 的 审 稿 人 : Bryce Darling、 


Christian Theil Have、 Cris Weber 、Deepak Vohra、 Dwight Barry、 George Gaines、 Indrajit Sen 


Gupta、L. Duleep Kumar Samuel 博 十 、Mahesh Srinivason、 


Marc Paradis 、Peter Rabinovitch、 


Ravishankar Rajagopalan 、Samuel] Dale McQuillin 以 及 Zekai Otles。 





口 在 本 书 完成 前 参与 MEAP ( Manning 早 期 试 读 计 划 ) 的 同 
出 了 书 中 的 错误 并 提供 了 有 益 的 建议 。 
他 们 每 个 人 的 贡献 都 让 本 书 的 质量 更 上 一 层 楼 。 





仁 ， 他 们 提出 了 重要 的 问题 ， 指 


我 还 想 感 谢 为 R 成 为 如 此 强大 的 数据 分 析 平 台 而 做 出 卓越 贡献 的 软件 开发 人 员 。 这 其 中 有 R 
的 核心 开发 者 ， 还 有 那些 开发 R 包 和 维护 各 种 软件 包 的 个 人 ,他 们 极 大 地 扩展 了 R 的 功能 。 附 录 E 
罗列 了 本 书 中 涉及 的 软件 包 的 作者 。 其 中 ， 我 要 特别 感谢 John Fox、Hadley Wickham 、Frank E. 
Harrell、Deepayan Sarkar 和 William Revelle。 我 会 尽 可 能 准确 地 介绍 他 们 的 贡献 ， 并 为 本 书 中 所 


有 可 能 存在 的 错误 或 是 误导 性 描述 负责 。 





在 本 书 开 头 ， 我 还 应 该 感谢 我 的 妻子 ， 同 时 她 也 是 我 的 合作 者 : Carol Lynn。 她 对 统计 学 和 




















编程 都 没有 太 多 兴趣 ， 但 却 反复 阅读 了 每 一 章 的 内 容 ， 帮 助 纠正 了 很 多 问题 并 提出 了 大 量 建议 。 


VI 致 谢 














为 了 他 人 而 研读 多 元 统计 学 实在 是 一 件 很 有 爱 的 事情 。 同 样 重要 的 是 , 她 容忍 我 在 深夜 和 周末 编 
写 此 书 ， 给 予 我 无 限 的 包容 、 支 持 和 关怀 。 我 真 的 感到 非常 幸运 。 

我 还 要 感谢 两 个 人 。 一 位 是 我 父亲 ， 他 对 科学 的 热爱 影响 了 我 ， 让 我 认识 到 了 数据 的 价值 。 
另 一 位 是 Gary K. Burger 我 读 人 研究 生 时 的 导师 。 我 有 段 时 间 觉 得 自己 想 成 为 一 名 医生 , 是 Gary 
引领 我 进入 统计 学 和 教育 领域 ， 这 一 切 都 是 他 赐予 的 。 
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要 是 一 本 书 里 没有 图 画 和 对 话 ， 那 还 有 什么 意思 呢 ? 
足 ; 


它 太 神奇 了 ， 满 载 珍 宝 ， 可 以 让 那些 聪明 狐 独 和 粗野 胆 大 的 人 得 到 充分 满足 ; 但 并 不 适合 胆 


小 者 。 





Q,“Q Who? ”,《 星 际 迷 航 : 下 一 代 》 


在 开始 写 这 本 书 时 , 我 花 了 很 多 时 间 搜 索 适 合 于 开始 本 书 的 名 言 警句 。 最 后 ,我 找到 了 这 两 
句 话 。R 是 一 个 非常 灵活 的 平台 ， 是 专用 于 探索 、 展 示 和 理解 数据 的 语言 ， 因 此 我 引用 了 《爱丽 
丝 梦 游 仙境 》 的 句子 来 表示 当今 统计 分 析 的 潮流 一 一 一 个 探索 、 展 示 和 理解 的 交互 式 过 程 。 

第 二 句 话 反映 了 大 部 分 人 对 R 的 看 法 : 难 学 。 但 你 完全 没 必要 这 样 想 。 虽 然 R 很 强大 ， 应 用 
广泛 ,不 论 你 是 新 手 还 是 略 有 经 验 的 用 户 ， 众 多 的 分 析 和 绘图 函数 ( 超过 50 000 个 ) 都 很 容易 让 
你 望而却步 ,但 实际 上 并 非 无 规律 可 循 。 只 要 有 合适 的 指导 ,你 就 可 以 畅游 其 中 ,选择 所 需 的 工 
具 ,， 用 最 优雅 、 最 简洁 、 最 高 效 的 方式 来 完成 工作 一 一 那 真 的 很 酷 ! 

多 年 前 ， 我 在 申请 一 个 统计 咨询 职位 时 ， 第 一 次 遇 到 了 R。 雇 主 在 正式 面试 前 发 来 的 材料 中 
问 我 是 否 熟悉 R。 根 据 猎 头 的 建议 ， 我 立马 回答 “是 的 ,我 很 熟悉 ”， 然 后 开始 恶 补 R。 在 统计 和 
研究 方面 我 有 丰富 的 经 验 , 作为 SAAS 和 SPSS 程 序 员 也 有 25 年 的 工作 经 验 , 而 且 对 各 种 编程 语言 也 
颇 为 精通 。 学 习 R 能 有 多 难 ? 但 事与愿违 。 

在 学 习 这 门 语言 的 过 程 中 〈 因为 要 面试 ,我 要 尽 可 能 快 )， 我 发 现 这 门 语言 无 论 是 底层 的 结 
构 还 是 各 种 高 级 的 统计 方法 , 都 是 由 各 具体 领域 的 专家 为 同行 专家 编写 的 。 看 在 线 帮 助 简直 前 
折磨 ， 那 不 是 教程 ， 都 是 参考 手册 。 每 当 我 觉得 自己 已 经 对 R 的 结构 和 功能 有 足够 把 握 时 ， 就 
发 现 一 些 闻所未闻 的 新 东西 ， 它 们 让 我 感觉 自己 很 渺小 。 

为 了 解决 这 些 问 题 ， 我 开始 以 数据 科学 家 的 角度 学 习 R。 我 开始 思考 如 何 才能 成 功 地 处 理 、 
分 析 和 理解 数据 ， 包 括 : 

口 获取 数据 ( 从 各 种 数据 源 将 数据 导入 程序 ); 
口 整理 数据 ( 编码 缺失 值 、 修 复 或 删除 错误 数据 、 将 变量 转换 成 更 方便 的 格式 ); 
口 注释 数据 ( 以 记 住 每 段 数据 的 含义 ); 
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口 总 结 数 据 ( 通过 描述 性 统计 量 了 解数 据 的 概况 ); 
口 数据 可 视 化 (一 图 胜 千 言 ); 

口 数据 建 模 ( 解释 数据 间 的 关系 ， 检 验 假设 ); 

口 整理 结果 ( 创建 具有 出 版 水 平 的 表格 和 图 形 )。 

然后 ， 我 试图 用 R 来 完成 这 些 任 务 。 通 过 教授 别人 来 学 习 是 最 好 的 方式 ， 所 以 我 创建 了 一 个 
网 站 (www.statmethods.net )， 不 断 把 我 学 到 的 东西 放 在 上 面 。 

大 概 一 年 后 ，Marjan Bace ( Manning 的 出 版 人 ) 打 电 话 给 我 ， 问 我 能 和 否 写 一 本 关于 R 的 书 。 
那 时 我 已 经 写 了 50 篇 期 刊 文章 、4 份 技术 手册 ， 以 及 大 量 章节 的 内 容 ， 还 写 了 一 本 关于 人 研究 方法 
的 书 ， 所 以 我 想 ， 写 一 本 关于 R 的 书 能 有 多 难 ? 结 果 依 然 是 事与愿违 。 

本 书 的 第 1 版 于 2011 年 出 版 ,一 年 后 ， 我 开始 编写 第 2 版 。R 的 平台 在 不 断 完善 ， 我 想 一 直 跟 
进 , 我 也 想 在 本 书 中 覆盖 更 多 有 关 预 测 性 分 析 及 数据 挖掘 的 内 容 一 一 这 都 是 大 数据 时 代 很 火 的 主 
题 。 最 后 ， 我 还 想 加 一 些 关 于 数据 可 视 化 、 软 件 发 展 以 及 动态 报告 撰写 的 章节 。 

你 现在 捧 着 的 这 本 书 是 我 多 年 来 梦 霖 以 求 的 。 我 试图 提供 一 份 R 的 指南 ， 让 你 能 尽快 感受 到 
R 的 强大 以 及 开源 的 魅力 ， 不 再 感到 诅 丧 和 忧虑。 我 希望 你 能 喜欢 本 书 。 

另外， 虽然 当年 我 成 功 地 申请 到 了 那个 职位 ， 但 并 未 入职 。 不 过 ， 学 习 R 的 经 历 改 变 了 我 的 
职业 方向 ， 这 是 我 未 曾 想到 的 。 真 可 谓 人 生 如 戏 。 
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如 果 你 翻 开 了 本 书 ， 那么 很 有 可 能 是 因为 要 做 一 些 数据 收集 、 总 结 、 转 换 、 探 索 、 建 模 、 可 
视 化 或 呈现 方面 的 工作 。 如 果 确 实 如 此 ， 那 么 R 完 全 能 够 满足 你 的 需求 ! R 已 经 成 了 统计 、 预 测 
分 析 和 数据 可 视 化 的 全 球 通用 语言 。 它 提供 各 种 用 于 分 析 和 理解 数据 的 方法 ,从 最 基础 的 到 最 前 
沿 的 ， 无 所 不 包 。 

R 是 一 个 开源 项 目 ， 在 很 多 操作 系统 上 都 可 以 免费 得 到 ， 包 括 Windows、Mac OS X 和 Linux。 
R 还 在 持续 发 展 中 ， 每 天 都 在 纳入 新 的 功能 。 此 外 ，R 还 得 到 了 社区 的 广泛 支持 ， 这 个 社区 里 既 
有 数据 科学 家 也 有 程序 员 ， 他 们 很 乐于 为 R 的 用 户 提供 帮助 或 建议 。 

R 以 能 创建 漂亮 优雅 的 图 形 而 闻 名 ， 但 实际 上 它 可 以 处 理 各 种 统计 问题 。 基 本 的 安装 就 提供 
了 数 以 百 计 的 数据 管理 、 统 计 和 图 形 函 数 。 不 过 ，R 很 多 强大 的 功能 都 来 自 社 区 开发 的 数 以 千 计 
的 扩展 〈 包 )。 

这 些 好 处 也 都 是 有 代价 的 。 对 于 新 手 来 说 ， 经 常 遇 到 的 两 个 基本 难题 就 是 : R 到 底 是 什么 ? 
R 究 竟 能 做 什么 ?甚至 是 经 验 丰富 的 R 用 户 也 常常 发 现 一 些 他 们 之 前 闻所未闻 的 新 功能 。 

本 书 是 一 本 R 指 南 ， 高 度 概括 了 该 软件 和 它 的 强大 功能 。 本 书 会 介绍 基本 安装 中 最 重要 的 函 
数 ， 以 及 90 多 个 重要 扩展 包 中 的 函数 。 整 本 书 都 是 围绕 实际 应 用 展开 的 ,你 将 学 会 理解 数据 并 能 
够 与 他 人 交流 这 种 对 数据 的 理解 。 通 读本 书 ， 你 应 该 会 对 R 的 原理 和 功能 有 基本 的 了 解 ， 并 知道 
从 什么 地 方 学 习 更 多 的 相关 知识 。 你 将 能 用 各 种 技术 实现 数据 的 可 视 化 , 还 能 解决 各 种 难度 的 数 
据 分 析 问 题 。 


第 2 版 的 不 同 之 处 


如 果 你 想 更 深入 地 探索 R 的 使 用 ， 第 2 版 新 增 了 近 200 页 的 内 容 。 本 书后 半 部 分 中 新 增 了 儿童 
讲述 数据 挖 据 、 预 测 性 分 析 和 高 级 编程 。 具体 来 说 ,第 15 章 ( 时间 序列 )、 第 16 章 ( 聚 类 分 析 )、 
第 17 章 (分 类 )、 第 19 章 (使 用 ggplot2 进 行 高 级 绘图 )、 第 20 章 (高 级 编程 )、 第 21 章 (创建 包 ) 
以 及 第 22 章 〈 创建 动态 报告 ) 是 新 增 内容 。 另 外 ， 第 2 章 〈 创建 数据 集 ) 给 出 了 更 多 关于 从 文本 
文件 和 SAS 文 件 中 导入 数据 的 方法 ， 附 录 F ( 处 理 大 数据 集 ) 则 在 原 有 基础 上 新 加 入 了 一 些 用 于 
应 对 大 数据 问题 的 工具 。 最 后 ， 这 一 版 在 第 1 版 的 基础 上 进行 了 大 量 更 新 和 修正 。 
























































































































































X 关于 本 书 


读者 对 象 


每 一 个 要 处 理 数据 的 人 都 应 该 读 读 本 书 ， 他 们 不 需要 任何 统计 编程 或 R 语 言 知识 背景 。R 语 
言 新 手 完全 能 够 读 懂 本 书 ， 而 有 经 验 的 R 老 手 也 能 在 本 书 中 发 现 很 多 实用 的 新 东西 。 

没有 统计 背景 ， 但 需要 用 R 操 作 数据 、 总 结 数据 、 绘 制图 形 的 读者 会 觉得 第 1 ~ 6 章 、 第 11 章 
和 第 19 章 比较 容易 理解 。 第 7 章 和 第 10 章 则 需要 读者 学 过 一 学 期 的 统计 学 课程 ; 第 8 章 、 第 9 章 和 
第 12 ~ 18 章 则 需要 读者 学 过 一 学 年 的 统计 学 课程 。 第 20 ~ 22 章 更 详尽 地 介绍 了 R 语 言 ， 但 并 不 对 
读者 的 统计 学 背景 有 任何 要 求 。 不 过 , 我 尽 可 能 地 让 每 一 章 都 能 同时 迎合 数据 分 析 新 手 和 专家 的 
需求 ， 让 所 有 人 都 能 从 中 获 益 。 


本 书 结构 


本 书 的 目的 是 让 读者 熟悉 R 平 台 , 重点 关注 那些 能 马上 用 于 操作 、 可视化 和 理解 数据 的 方法 。 
全 书 共 22 章 ,分 为 5 部 分 :“ 入 门 "” “基础 方法 ”“ 中 级 方法 ”“ 高 级 方法 ”和 “技能 拓展 ”。 在 7 个 
附录 中 还 有 更 多 的 相关 内 容 。 

第 1 章 首 先 简 要 介绍 了 R, 以 及 它 作为 数据 分 析 平 台 的 诸多 特性 。 这 一 章 主要 介绍 了 R 的 获取 ， 
以 及 如 何 用 网 上 的 扩展 包 增 强 R 基 本 安装 的 功能 。 男 外 ， 它 还 介绍 了 用 户 界面 ， 以 及 如 何以 交互 
方式 和 批 处 理 方式 运行 程序 。 

第 2 章 介绍 了 向 R 中 导入 数据 的 诸多 方法 。 这 一 章 的 前 半 部 分 介绍 了 R 用 来 存储 数据 的 数据 结 
构 ， 以 及 如 何 用 键盘 输入 数据 。 后 半 部 分 介绍 了 怎样 从 文本 文件 、 网 页 、 电 子 表格 、 统 计 软 件 和 
数据 库 向 R 导 入 数据 。 

很 多 用 户 最 初 接触 R 都 是 为 了 绘制 图 形 , 我 们 在 第 3 章 会 对 此 作 介 绍 。 这 一 章 介绍 了 创建 、 修 
改 图 形 的 方法 ， 以 及 如 何 将 图 形 保存 为 各 种 格式 的 文件 。 

第 4 章 探 讨 了 基本 的 数据 管理 ， 包 括 数据 集 的 排序 、 合 并 、 取 子 集 ， 以 及 变量 的 转换 、 重 编 
码 和 删除 。 

在 第 4 章 的 基础 上 ， 第 $ 章 涵盖 了 数据 管理 中 函数 ( 数学 函数 、 统 计 函 数 、 字 符 函 数 ) 和 控制 
结构 ( 循环、 条件 执 行 ) 的 用 法 ， 然 后 介绍 如 何 编写 自己 的 R 函 数 ， 以 及 如 何 用 不 同 的 方法 整合 
数据 。 

第 6 章 演 示 了 创建 常见 单 变量 图 形 的 方法 ， 例 如 柱状 图 、 饼 图 、 直 方 图 、 密 度 图 、 箱 线 图 和 
点 图 。 这 些 图 形 对 于 理解 单 变量 的 分 布 都 很 有 用 。 

第 7 章 首先 演示 了 如 何 总 结 数据 ， 包 括 使 用 描述 统计 量 和 交叉 表 。 然 后 ， 这 一 章 介 绍 了 用 于 
分 析 两 变量 间 关 系 的 基本 方法 ， 包 括 相关 性 、t 检 验 、 卡 方 检验 和 非 参数 方法 。 

第 8 章 介绍 了 针对 一 个 数值 型 结果 变量 与 一 系列 数值 型 预测 变量 间 的 关系 进行 建 模 的 回归 方 
法 ， 详 细 给 出 了 拟 合 模型 的 方法 、 适 用 性 评价 和 含义 解释 。 

第 9 章 介绍 了 基于 方差 及 其 变 体 对 基本 实验 设计 的 分 析 。 此 处 ， 我 们 通常 感 兴趣 的 是 处 理 方 
式 的 组 合 或 条 件 对 数值 结果 变量 的 影响 。 这 一 章 还 介绍 了 如 何 评价 分 析 的 适用 性 , 以 及 如 何 可 视 
化 地 展示 分 析 结 果 。 





















































































































































关于 本 书 XI 











第 10 章 详细 介绍 了 功效 分 析 。 这 一 章 首 先 讨论 了 假设 检验 , 重点 是 如 何 判断 在 给 定 置信 度 的 
前 提 下 需要 多 少 样本 才能 判断 处 理 的 效果 。 这 可 以 帮助 我 们 安排 实验 和 准 实验 研究 来 获得 有 用 的 
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第 11 章 扩展 了 第 6 章 的 内 容 ， 介 绍 了 创建 表现 两 个 或 多 个 变量 间 关系 的 图 形 。 这 包括 各 种 2D 
和 3D 的 散 点 图 、 散 点 图 和 矩阵、 折线 图 、 相 关 图 和 马赛 克 图 。 

第 12 章 介绍 了 一 些 稳健 的 数据 分 析 方 法 , 它们 能 处 理 比 较 复杂 的 情况 ， 比 如 数据 来 源 于 未 知 
或 混合 分 布 、 有 小 样本 问题 、 有 恼人 的 异常 值 , 或 者 依据 理论 分 布设 计 假 设 检验 非常 复杂 且 在 数 
学 上 难以 处 理 的 情况 。 这 一 章 介 绍 的 方法 包括 重 抽样 和 自助 法 一 一 很 容易 在 R 中 实现 的 需要 大 量 
计算 机 资源 的 方法 。 

第 13 章 扩展 了 第 8 章 中 介绍 的 回归 方法 ， 分 析 非 正 态 分 布 的 数据 。 这 一 章 首 先 介 绍 了 广义 线 
性 模型 ,然后 重点 介绍 了 如 何 预测 类 别 型 变量 (Logistic 回归 ) 或 计数 变量 ( 泊 松 回归 )。 



































相关 变量 ( 主 成 分 分 析 )， 以 及 如 何 发 现 一 系列 变量 中 的 潜在 结构 ( 因子 分 析 ) 这 些 方法 涉及 许 
多 步 又 ， 每 一 步 都 有 详细 的 介绍 。 

第 15 章 介绍 了 时 间 序 列 数据 的 生成 、 处 理 和 建 模 ,包括 时 序数 据 的 可 视 化 和 分 解 ， 以 及 运用 
指数 模型 和 ARIMA 模 型 来 预测 未 来 值 。 

第 16 章 介绍 了 如 何 将 数据 集 按 其 特性 聚 类 。 这 一 章 首 先 讨 论 了 完整 的 聚 类 分 析 的 常见 步骤 ， 
接着 介绍 了 层次 聚 类 和 划分 聚 类 ， 同 时 也 讨论 了 几 种 决定 最 优 类 别 数 的 方法 。 

第 17 章 介绍 了 一 些 常 用 的 对 样本 单元 进行 分 类 的 有 监督 机 器 学 习 算 法 , 包括 决策 树 、 随 机 森 
林 和 支持 向 量 机 。 同 时 ， 我 们 也 给 出 了 评价 模型 准确 性 的 方法 。 

实际 工作 中 面临 的 一 个 普遍 问题 是 数据 值 缺 失 ， 第 18 章 介绍 了 一 个 应 对 此 问题 的 现代 方法 。 
R 中 有 很 多 简捷 的 方法 可 以 用 来 分 析 因 各 种 原因 而 不 完整 的 数据 。 这 一 章 对 一 些 好 的 方法 都 有 介 
绍 ， 还 具体 说 明了 在 什么 情况 下 应 该 用 哪些 方法 以 及 应 该 避免 使 用 哪些 方法 。 

第 19 章 介绍 了 R 中 最 先进 、 最 有 用 的 数据 可 视 化 方法 ggplot2。ggplot2 程 序 包 给 出 了 图 形 
的 语法 ， 在 对 多 变量 数据 进行 绘图 时 是 一 套 功能 很 强大 的 工具 。 

第 20 章 介绍 了 一 些 高 级 编程 技巧 。 在 这 一 章 中 , 你 将 学 到 面向 对 象 的 编程 技巧 、 调 试 程序 的 
方法 和 提高 编程 效率 的 技巧 。 如 果 你 想 更 深入 地 了 解 R 的 原理 ， 那 这 一 章 一 定 对 你 非常 有 用 。 这 
一 章 也 是 看 懂 21 章 的 先决 条 件 。 

第 21 章 介绍 了 创建 R 包 的 步骤 。 学 完 这 些 步骤， 你 将 能 创建 更 复杂 的 项 目 ， 并 能 有 效 地 将 它 
们 记录 下 来 ， 与 其 他 人 分 享 。 

第 22 章 介绍 了 几 种 在 R 中 生成 动态 报告 的 方法 。 这 一 章 将 教 你 如 何 通过 R 代 码 生 成 网 页 、 报 
告 、 文 章 甚 至 图 书 ， 所 生成 的 文件 将 包括 你 的 原始 代码 、 结 果 图 表 以 及 批注 。 

本 书 还 有 一 个 “彩蛋 ”( 第 23 章 )， 其 中 介绍 了 第 19 章 中 所 介绍 的 1attice 程 序 包 。 

最 后 的 附录 也 很 重要 ，7 个 附录 ( 从 A 到 G ) 扩展 了 正文 的 一 些 内 容 ， 包 括 R 中 的 图 形 用 户 界 
面 、 自 定义 和 升级 R、 导 出 数据 到 其 他 软件 、( 像 MATLAB 一 样 ) 用 R 做 矩阵 计算 ,以 及 处 理 大 型 

























































































XII 关于 本 书 





后 记 中 介绍 了 一 些 优 秀 的 网 站 ， 有 助 于 读者 进一步 学 习 R、 加 入 R 社 区 、 获 得 帮助 ， 并 及 时 
获得 R 这 个 快速 发 展 的 软件 的 最 新 信息 。 


对 数据 挖掘 者 的 建议 


数据 挖掘 是 一 个 在 大 数据 集中 发 现 模 式 、 规 律 的 领域 。 由 于 R 可 以 提供 最 前 沿 的 数据 分 析 方 
法 ,许多 数据 挖掘 专家 都 选择 了 R。 如 果 你 是 一 个 正在 转 用 R 的 数据 挖掘 专家 ， 想 尽快 了 解 这 门 
语言 ， 那 么 我 推荐 你 按照 这 样 的 顺序 阅读 : 第 1 章 (介绍 )、 第 2 章 (数据 结构 和 与 你 有 关 的 数据 
导入 部 分 )、 第 4 章 (基本 的 数据 管理 )、 第 7 章 (描述 性 统计 )、 第 8 章 ( 8.1 节 、8.2 节 、8.6 节 以 及 
回归 )、 第 13 章 ( 13.2 节 以 及 逻辑 回归 )、 第 16 章 ( 聚 类 )、 第 17 章 (分 类 ) 以 及 附录 F ( 处 理 大 数 
据 )。 之 后 再 根据 你 的 实际 需求 阅读 其 他 章节 。 


例子 


为 了 让 本 书 内 容 尽 可 能 接近 各 个 领域 的 实际 情况 ,我 从 心理 学 、 社 会 学 、 医 学 、 生 物 学 、 商 
业 和 工程 等 诸多 领域 选取 了 一 些 例子 。 所 有 的 这 些 例子 都 不 需要 读者 具备 这 些 领 域 的 专业 知识 。 

这 些 例子 中 所 使 用 的 数据 集 是 经 过 精心 挑选 的 ， 因 为 它们 不 仅 提 出 了 有 趣 的 问题 ， 而 且 比 
较 小 。 这 样 能 让 读者 专注 于 技术 ,快速 地 理解 所 涉及 的 过 程 。 在 学 习 新 方法 时 ， 数 据 集 小 是 有 
好 处 的 。 

有 些 数据 集 是 R 基 本 安装 中 就 有 的 ， 有 些 则 可 以 通过 在 网 上 下 载 软件 包 来 获得 。 每 个 例子 的 
代码 都 可 以 从 www.manning.com/RinAction 和 www.github.com/kabacoff/RiA2 下 载 。 为 了 更 好 地 理 
解 本 书 中 的 内 容 ， 我 建议 读者 在 阅读 本 书 时 试 试 这 些 例子 。 

经 常 听 人 引用 这 么 一 句 话 : 如 果 你 问 两 个 统计 学 家 该 如 何 分 析 一 个 数据 集 , 你 会 得 到 三 个 答 
案 。 反 过 来 说 ， 每 个 答案 都 能 让 你 更 好 地 理解 数据 集 。 对 于 一 个 问题 ， 我 不 会 说 某 种 分 析 方 式 是 
最 好 的 ,或 者 是 唯一 的 。 读 者 应 该 用 本 书 中 学 到 的 技术 动手 分 析 数 据 ， 看 看 都 能 得 到 什么 。R 是 
交互 式 的 ， 最 好 的 学 习 方 法 就 是 自己 尝试 。 


排版 约定 


下 面 是 本 书 的 排版 约定 。 

口 等 宽 字 体 用 于 代码 清单 。 

口 等 宽 字 体 还 用 于 在 一 般 的 正文 中 表示 代码 或 之 前 定义 的 对 象 。 

口 代码 清单 中 的 斜体 表示 占 位 符 。 你 应 该 用 自己 问题 中 的 文本 和 值 来 奉 换 它 们 。 例 如 ， 

Path_to_myr_fi7e 就 应 该 用 该 文件 在 你 自己 电脑 上 的 实际 路 径 来 蔡 换 。 

口 R 是 一 种 交互 式 语言 ， 用 提示 符 (默认 是 > ) 表示 已 经 准备 好 读 取 用 户 的 下 一 行 输入 。 本 
书 中 的 很 多 代码 清单 都 是 从 交互 式 会 话 中 截取 的 。 当 你 看 到 代码 是 以 > 开头 时 ,不 要 输入 
这 个 提示 符 。 






















































































































































































关于 本 书 XIII 





口 用 行内 注释 作为 代码 注释 ( 这 是 Manning 图 书 的 传统 做 法 )。 此 外 ， 有 些 注释 会 以 有 序 项 
目 符号 的 形式 出 现 ( 如 人 @ )， 它 们 对 应 稍 后 正文 中 对 代码 作出 的 解释 。 

口 为 了 节约 版 面 ， 让 正文 更 紧凑 ， 我 们 会 在 交互 式 会 话 的 输出 中 加 入 一 些 空白 ， 同 时 也 会 
删除 一 些 与 当前 讨论 问题 无 关 的 文字 。 


作者 在 线 


在 购买 本 书 英 文 版 的 同时 ， 你 便 获 得 了 访问 Manning 出 版 社 运营 的 私密 Web 论 坛 的 权限 ， 在 
这 里 你 可 以 发 表 图 书评 论 、 询 问 技 术 问 题 , 还 可 以 从 作者 或 其 他 读者 那里 获得 帮助 。 用 浏览 器 访 
问 www.manning.com/RinAction 就 可 以 访问 和 订阅 这 个 论坛 。 这 个 网 页 说 明了 注册 后 如 何 访问 论 
坛 、 能 获得 何 种 帮助 以 及 论坛 上 的 行为 规范 等 信息 。 

Manning 致 力 于 为 读者 之 间 以 及 读者 和 作者 之 间 提 供 一 个 良好 的 交流 空间 。 作 者 对 论坛 的 参 
与 完全 是 自愿 的 ， 他 们 对 AO 论 坛 的 贡献 都 是 〈 无 偿 的 ) 志愿 行为 。 我 们 建议 读者 向 作者 提 一 些 
有 挑战 性 的 问题 ， 作 者 对 这 样 的 问题 会 更 有 兴趣 。 

在 本 书 英文 版 的 整个 销售 期 中 ， 大 家 都 可 以 从 出 版 商 的 网 站 上 访问 AO 论 坛 ， 阅 读 以 前 的 


讨论 。 




































































天 于 封面 图 片 


本 书 的 封面 图 片 标题 是 “来 自 扎 达尔 的 男人 ”。 这 张 图 片 取 自 19 世 纪 中 期 Nikola Arsenovic 的 
一 本 克罗地亚 传统 服饰 图 集 的 复 刻 版 , 由 克罗地亚 斯 普 利 特 的 Ethnographic 博 物 馆 在 2003 年 出 版 。 
图 片 由 Ethnographic 博 物 馆 一 位 热心 的 图 书 管理 员 提 供 。 斯 普 利 特 在 中 世纪 时 是 罗马 帝国 的 核心 。 
从 大 概 公 元 304 年 起 ， 伸 任 的 帝国 国王 戴 克 里 安 ( Diocletian ) 所 居住 的 皇宫 就 在 这 里 。 这 本 书 中 
涵盖 了 克罗地亚 各 个 地 区 色彩 斑 澜 的 图 片 ， 并 对 服饰 和 日 常生 活 进 行 了 介绍 。 

扎 达 尔 (Zadar ) 是 克罗地亚 达尔 马 提 亚 (Dalmatian ) 海岸 北方 的 一 个 古 罗 马 时 期 的 城镇 ， 
有 着 两 千年 的 历史 , 在 数 百年 的 时 间 里 都 是 君 士 坦 丁 堡 和 西方 的 贸易 通道 上 的 重要 港口 。 它 坐落 
于 一 个 伸 癌 亚 得 里 亚 海 的 半岛 上 , 周围 被 各 种 大 大 小 小 的 岛屿 环绕 。 如 画 般 的 风景 ,加 上 罗马 帝 
国 时 代 的 遗迹 、 护 城 河 和 古老 的 石头 城墙 ， 让 这 里 成 为 了 旅行 者 的 圣地 。 封 面 图 片上 的 人 穿着 蓝 
色 的 羊毛 裤子 和 白色 的 麻 质 衬衫 , 外 披 点 级 着 当地 特色 刺绣 的 蓝 色 马甲 和 夹克 , 再 加 上 红色 羊毛 
腰带 和 帽子 ， 就 构成 了 一 套 完整 的 服饰 。 

在 这 过 去 的 二 百年 里 , 各 地 的 服饰 和 生活 方式 都 发 生 了 巨大 的 变化 , 当时 的 特色 已 随时 间 流 
逝 。 现 如 今 , 来 自 不 同 大 陆 的 人 都 已 难以 区 分 ， 更 不 用 说 相隔 仅 数 英里 的 村 子 和 城镇 居民 了 。 或 
许 , 文化 多 样 性 也 是 我 们 为 获得 丰富 多 彩 的 个 人 生活 而 付出 的 代价 一 一 现在 的 生活 无 疑 是 更 多 姿 
多 彩 的 快 节奏 高 科技 生活 。 

Manning 出 版 社 用 两 个 世纪 前 各 地 独 具 特 色 的 生活 方式 来 赞美 计算 机 行业 的 诞生 和 发 展 ， 用 
古老 书籍 和 图 册 中 的 图 片 让 我 们 领略 那个 时 代 的 风土 人 情 。 
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欢迎 阅读 本 书 ! R 是 现今 最 受 欢 迎 的 数据 分 析 和 可 视 化 平台 之 一 。 它 是 自由 的 开源 软件 ， 
并 同时 提供 Windows、Mac OS X 和 Linux 系统 的 版 本 。 通 读本 书 ， 你 将 掌握 精通 这 个 功能 全 面 
的 软件 所 需 的 技能 ， 有 效 地 使 用 它 分 析 自 己 的 数据 。 

本 书 共 分 五 部 分 。 第 一 部 分 涵盖 了 软件 的 安装 、 软 件 界面 的 操作 、 数 据 的 导入 ， 以 及 如 何 
将 数据 修改 成 可 供 进一步 分 析 的 格式 等 基本 知识 。 
第 1 章 的 内 容 全 部 都 是 关于 熟悉 R 环境 的 。 这 一 章 首 先是 R 的 概览 ， 介 绍 使 其 成 为 强大 现 
代数 据 分 析 平 台 的 独 有 特性 。 在 简要 介绍 了 如 何 获取 和 安装 R 之 后 ， 我 们 通过 一 系列 的 简单 示 
例 探索 了 R 的 用 户 界面 。 接 着 ， 你 将 学 习 如 何 通 过 可 从 在 线 仓库 中 免费 下 载 的 扩展 ( 称 为 用 户 
贡献 包 ) 来 增强 基本 安装 的 功能 。 最 后 ， 这 一 章 以 一 个 示例 结尾 ， 让 你 自 测 学 到 的 新 技术 。 

熟悉 了 RR 的 界面 之 后 ， 下 一 个 挑战 是 将 数据 导入 程序 中 。 在 当今 这 个 信息 丰富 的 世界 中 ， 
数据 的 来 源 和 格式 多 种 多 样 。 第 2 章 全 面 介绍 癌 R 中 导入 数据 的 多 种 方式 。 此 章 的 前 半 部 分 介 
绍 了 有 用 以 存储 数据 的 各 种 数据 结构 , 并 描述 了 如 何 手工 输入 数据 。 后 半 部 分 讨论 了 从 文本 文件 、 
网 页 、 电 子 表 格 、 统 计 软 件 和 数据 库 导 入 数据 的 方法 。 

从 工作 流程 的 观点 考虑 ， 下 一 步 理 应 讨论 数据 管理 和 数据 清理 问题 。 但 是 ， 许 多 第 一 次 接 
触 R 的 用 户 都 对 其 强大 的 图 形 功能 表现 出 了 浓厚 的 兴趣 。 为 了 不 扫 你 的 兴 ， 第 3 章 我 们 直接 开 
始 探索 图 形 的 绘制 问题 。 这 一 章 对 创建 图 形 、 自 定义 图 形 、 以 各 种 格式 保存 图 形 的 方法 进行 了 
综述 ， 描 述 如何 设 定 图 形 中 使 用 的 颜色 、 符 号 、 线 条 类 型 、 字 体 、 坐 标 轴 、 标 题 、 标 签 以 及 图 例 ， 
最 后 还 介绍 了 将 多 个 图 形 组 合 为 单个 图 形 的 方法 。 
尝试 过 R 的 图 形 功能 之 后 ， 我 们 重 返 数据 分 析 的 正题 。 数 据 很 少 以 直接 可 用 的 格式 出 现 ， 
对 此 在 开始 解决 感 兴趣 的 问题 之 前 ， 我 们 经 常 不 得 不 将 大 量 时 间 花 在 从 不 同 的 数据 源 组 合 数据 、 
清理 脏 数 据 《〈 误 编码 的 数据 、 不 匹配 的 数据 、 含 缺失 值 的 数据 )， 以 及 新 变量 《组 合 后 的 变量 、 
变换 后 的 变量 、 重 编码 的 变量 ) 的 创建 上 。 第 4 章 讲 述 了 R 中 基本 的 数据 管理 任务 ， 包 括 数据 
集 的 排序 、 合 并 、 取 子 集 ， 以 及 变量 的 变换 、 重 编码 和 删除 。 










































































































































































































































































































































































































































































































































































































































































































































































2 ”第 一 部 分 ”入门 



































第 5 章 在 第 4 章 的 基础 上 ， 进 一 步 讲 解 了 数据 管理 中 数值 〈 算 术 运 算 、 三 角 运 算 和 统计 运 
算 ) 函数 和 字符 处 理 (字符 圳 取 子 集 .连接 和 普 换 ) 函数 的 使 用 。 为 了 阅 明 许多 相关 函数 的 用 法 
整 划 使 用 了 一 个 综合 示例 进行 讲解 。 接 下 来 是 关于 控制 结构 循环、 条件 执行 的 讨论 ， 你 将 
学 到 如 何 编写 R 函数 。 编 写 自 定义 函数 能 够 让 你 将 许多 程序 执行 步骤 封装 在 单个 的 函数 中 进行 
灵活 调用 ， 这 大 大 拓展 了 R 的 功能 。 因 为 数据 的 重 塑 和 整合 对 于 为 进一步 分 析 而 准备 数据 的 阶 
段 通 常 很 有 用 ， 所 以 最 后 将 讨论 一 些 重组 ( 重 塑 ) 数据 和 上 整 合 数 据 的 强大 方法 ， 

学 习 完 第 一 部 分 之 后 ， 你 将 完全 熟悉 R 环境 的 编程 ， 并 可 掌握 输入 或 访问 数据 、 清 理 数据 ， 
以 及 为 进一步 分 析 做 数据 准备 所 需 的 技术 。 另 外 ， 你 还 会 获得 创建 、 自 定义 和 保存 多 种 图 形 的 
经 验 。 



















































































































































































































































































本 章 内 容 

口 R 的 安装 
口 熟悉 R 语 言 
口 运行 R 程 序 








我 们 分 析 数 据 的 方式 在 近年 来 发 生 了 令 人 瞩目 的 变化 。 随 着 个 人 电脑 和 互联 网 的 出 现 , 可 获 
取 的 数据 量 有 了 非常 可 观 的 增长 。 商 业 公 司 拥 有 TB 级 的 客户 交易 数据 ,政府 、 学 术 团体 以 及 私 
立 研究 机 构 同 样 拥有 各 类 研究 课题 的 大 量 档 案 和 调查 数据 。 从 这 些 海量 数据 中 收集 信息 ( 更 不 用 
说 发 现 规律 ) 已 经 成 为 了 一 项 产业 。 同 时 ， 如 何以 容易 让 人 理解 和 消化 的 方式 呈现 这 些 信息 也 日 
益 富 有 挑战 性 。 

数据 分 析 科 学 (统计 学 、 计 量 心理 学 、 计 量 经 济 学 、 机 器 学 习 ) 的 发 展 一 直 与 数据 的 爆炸 式 
增长 保持 同步 。 远 在 个 人 电脑 和 互联 网 发 端 之 前 , 学 术 研 究 人 员 就 已 经 开发 出 了 很 多 新 的 统计 方 
法 , 并 将 其 研究 成 果 以 论文 的 形式 发 表 在 专业 期 刊 上 。 这 些 方法 可 能 需要 很 多 年 才能 够 被 程序 员 
改写 并 整合 到 广泛 用 于 数据 分 析 的 统计 软件 中 。 而 如 今 , 新 的 方法 层出不穷 。 统 计 研 究 者 经 常 在 
人 们 常 访问 的 网 站 上 发 表 新 方法 和 改进 的 方法 ， 并 附 上 相应 的 实现 代码 。 

个 人 电脑 的 出 现 还 对 我 们 分 析 数 据 的 方式 产生 了 另外 一 种 影响 。 当 数据 分 析 需 要 在 大 型 机 上 
完成 的 时 候 , 机 时 非常 宝贵 难 求 。 分 析 师 们 会 小 心地 设 定 可 能 用 到 的 所 有 参数 和 选项 , 再 让 计算 
机 执行 计算 。 程 序 运行 完毕 后 ,输出 的 结果 可 能 长 达 几 十 甚至 儿 百 页 。 之 后 , 分 析 师 会 仔细 筛 查 
整个 输出 ,去 芜 存 普 。 许 多 受 欢 迎 的 统计 软件 正 是 在 这 个 时 期 开发 出 来 的 。 直 到 现在 , 统计 软件 
依然 在 一 定 程度 上 沿袭 了 这 种 处 理 方式 。 

随 着 个 人 电脑 将 计算 变 得 廉价 且 便 捷 ， 现代 数据 分 析 的 方式 发 生 了 变化 。 与 过 去 一 次 性 设置 
好 完整 的 数据 分 析 过 程 不 同 , 现在 这 个 过 程 已 经 变 得 高 度 交互 化 , 每 一 阶段 的 输出 都 可 以 充当 下 
一 阶段 的 输入 。 一 个 典型 的 数据 分 析 过 程 的 示例 见 图 1-1。 在 任何 时 刻 ， 这 个 循环 都 可 能 在 进行 
着 数据 变换 、 缺 失 值 插 补 、 变 量 增加 或 删除 ,甚至 重新 执行 整个 过 程 。 当 分 析 师 认为 他 们 已 经 深 
入 地 理解 了 数据 ， 并 且 可 以 回答 所 有 能 够 回答 的 相关 问题 时 ， 这 个 过 程 即 告 结束 。 






















































































导入 数据 
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一 | 评估 模型 拟 合 结果 一 























一 一 | 模型 的 交叉 验证 

















在 数据 上 评估 模型 预测 效果 
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形成 报告 
图 1-1 典型 的 数据 分 析 步 又 


个 人 电脑 的 出 现 ( 特别 是 高 分 辨 率 显 示 需 的 普及 ) 同样 对 理解 和 呈现 分 析 结 果 产 生 了 重大 影 
响 。 一 图 胜 千言 ， 绝 对 如 此 ! 人 类 非常 擅长 通过 视觉 获取 有 用 信息 。 现 代数 据 分 析 也 日 益 依赖 通 
过 呈现 图 形 来 揭示 含义 和 表达 结果 。 

今天 的 数据 分 析 人 士 需要 从 广泛 的 数据 源 ( 数据库 管理 系统 、 文 本 文件 、 统计 软件 以 及 电子 
表格 ) 获取 数据 ,将 数据 片段 融合 到 一 起 ， 对 数据 做 清理 和 标注 ， 用 最 新 的 方法 进行 分 析 ， 以 有 
意义 有 吸引 力 的 图 形 化 方式 展示 结果 , 最 后 将 结果 整合 成 令 人 感 兴 趣 的 报告 并 向 利益 相关 者 和 公 
众 发 布 。 通 过 下 面 的 介绍 你 会 看 到 ，R 正 是 一 个 适合 完成 以 上 目标 的 理想 而 又 功能 全 面 的 软件 。 


1.1 ”为何 要 使 用 R 


与 起 源 于 贝尔 实验 室 的 S 语 言 类 似 ，R 也 是 一 种 为 统计 计算 和 绘图 而 生 的 语言 和 环境 ， 它 是 
一 套 开 源 的 数据 分 析 解 决 方案 ， 由 一 个 庞大 且 活 路 的 全 球 性 研究 型 社区 维护 。 但 是 , 市 面 上 也 有 
许多 其 他 流行 的 统计 和 制图 软件 ， 如 Microsoft Excel 、SAS、IBM SPSS 、Stata 以 及 Minitab 。 为 何 
裔 偏 要 选择 R? 

R 有 着 非常 多 值得 推荐 的 特性 。 
口 多 数 商 业 统计 软件 价格 不 菲 ， 投 入 成 千 上 万 美元 都 是 可 能 的 。 而 R 是 免费 的 ! 如 果 你 是 一 
位 教师 或 一 名 学 生 ， 好 处 显而易见 。 
口 R 是 一 个 全 面 的 统计 研究 平台 ,提供 了 各 式 各 样 的 数据 分 析 技术 。 几 乎 任何 类 型 的 数据 分 
析 工 作 皆 可 在 R 中 完成 。 
口 R 寺 括 了 在 其 他 软件 中 尚 不 可 用 的 、 先 进 的 统计 计算 例 程 。 事实 上 ,新 方法 的 更 新 速度 是 
以 周 来 计算 的 。 如 果 你 是 一 位 SAS 用 户 , 想象 一 下 每 隔 几 天 就 获得 一 个 新 SAS 过 程 的 情景 。 
口 R 拥 有 顶尖 水 准 的 制图 功能 。 如 果 硕 望 复 杂 数 据 可 视 化 ,那么 R 拥 有 最 全 面 且 最 强大 的 一 
系列 可 用 功能 。 
口 R 是 一 个 可 进行 交互 式 数据 分 析 和 探索 的 强大 平台 ， 其 核心 设计 理念 就 是 支持 图 1-1 中 所 
























































































































































1.1 为 何 要 使 用 及 5 





作 和 


概述 的 分 析 方 法 。 举 例 来 说 ， 任 意 一 个 分 析 步 又 的 结果 均 可 被 轻松 保存 、 操 作 ， 并 作为 
进一步 分 析 的 输入 。 

口 从 多 个 数据 源 获取 并 将 数据 转化 为 可 用 的 形式 ， 可 能 是 一 个 富有 挑战 性 的 议题 。R 可 以 轻 
松 地 从 各 种 类 型 的 数据 源 导 和 数据， 包括 文本 文件 、 数 据 库 管 理 系 统 、 统 计 软 件 ， 乃 至 
专门 的 数据 仓库 。 它 同样 可 以 将 数据 输出 并 写 和 人 到 这 些 系统 中 。R 也 可 以 直接 从 网 页 、 社 
交 媒 体 网 站 和 各 种 类 型 的 在 线 数据 服务 中 获取 数据 。 

口 R 是 一 个 无 与 伦比 的 平台 , 在 其 上 可 使 用 一 种 简单 而 直接 的 方式 编写 新 的 统计 方法 。 它 易 

于 扩展 ， 并 为 快速 编程 实现 新 方法 提供 了 一 套 十 分 自然 的 语言 。 

口 R 的 功能 可 以 被 整合 进 其 他 语言 编写 的 应 用 程序 , 包括 C++、Java、 Python、PHP、 Pentaho、 

SAS 和 SPSS。 这 让 你 在 继续 使 用 自己 熟悉 语言 的 同时 在 应 用 程序 中 加 入 R 的 功能 。 

口 R 可 运行 于 多 种 平台 之 上 ,包括 Windows、UNIX 和 Mac OS X。 这 基本 上 意味 着 它 可 以 运 
行 于 你 所 能 拥有 的 任何 计算 机 上 。( 本 人 曾 在 偶然 间 看 到 过 在 iPhone 上 安装 R 的 教程 ， 让 
人 佩服 ,但 这 也 许 不 是 一 个 好 主意 。) 

口 如 果 你 不 想 学 习 一 门 新 的 语言 ， 有 各 式 各 样 的 GUI ( Graphical User Interface， 图 形 用 户 界 
面 ) 工具 通过 菜单 和 对 话 框 提供 了 与 R 语 言 同 等 的 功能 。 

图 1-2 是 展示 R 制 图 功能 的 一 个 示例 。 使 用 一 行 代 码 做 出 的 这 张 图 , 说 明了 蓝领 工作 、 白 领 工 

专业 工作 在 收入 、 受 教育 程度 以 及 职业 声望 方面 的 关系 。 从 专业 角度 讲 , 这 是 一 幅 使 用 不 同 






























































































































































的 颜色 和 符号 表示 不 同 分 组 的 散 点 图 矩阵 ， 带 有 两 类 拟 合 曲线 〈 线性 回归 和 局 部 加 权 回 归 )、 置 
信和 椭圆 以 及 两 种 对 密度 的 展示 ( 核 密度 估计 和 轴 须 图 )。 另外， 在 每 个 散 点 图 中 都 自动 标 出 了 值 
最 大 的 离 群 点 。 如 果 这 些 术语 对 你 来 说 很 陌生 也 不 必 担 心 。 我 们 将 在 后 续 各 章 中 陆续 谈 及 它们 。 
这 里 请 暂且 相信 我 ， 它 们 真 的 非常 酷 。( 搞 统计 的 人 读 到 这 里 时 估计 已 经 垂 省 三 尺 了 。) 


信息 
无 法 


另外 
找到 











图 1-2 主 要 表明 了 以 下 几 点 。 

口 受 教育 程度 (education )、 收 入 (income )、 职 业 声 望 (prestige ) 呈 线 性 相关 。 

口 就 总 体 而 言 ， 蓝 领 工作 者 有 着 更 低 的 受 教育 程度 、 收 入 和 职业 声望 ; 反之 ， 专 业 工 作者 

有 着 更 高 的 受 教育 程度 、 收 入 和 职业 声望 。 白 领 工作 者 介 于 两 者 之 间 。 

口 有 趣 的 例外 是 ， 铁 路 工程 师 ( RR.engineer ) 的 受 教育 程度 较 低 ， 但 收入 较 高 ， 而 牧师 
( minister ) 的 职业 声望 高 ， 收 入 却 较 低 。 

第 8 章 将 会 进一步 讨论 这 类 图 形 。 重 要 的 是 ，R 能 够 让 你 以 一 种 简单 而 直接 的 方式 创建 优雅 、 
富 、 高 度 定 制 化 的 图 形 。 使 用 其 他 统计 语言 创建 类 似 的 图 形 不 仅 费 时 费力 , 而 且 可 能 根本 

做 到 。 

可 惜 的 是 , R 的 学 习 曲 线 较为 陡峭 。 因 为 它 的 功能 非常 丰富 , 所 以 文档 和 帮助 文件 也 相当 多 。 

,由 于 许多 功能 都 是 由 独立 贡献 者 编写 的 可 选 模块 提供 的 , 这 些 文档 可 能 比较 零散 而 且 很 难 

。 事 实 上 ， 要 掌握 R 的 所 有 功能 ， 可 以 说 是 一 项 挑战 。 

本 书 的 目标 是 让 读者 快速 而 轻松 地 学 会 使 用 R。 我 们 将 遍 览 R 的 许多 功能 ， 介 绍 到 的 内 容 足 

































































以 让 你 开始 着 手 分 析 数 据 ， 并 且 在 需要 你 深入 了 解 的 地 方 给 出 参考 材料 。 下 面 我 们 从 R 的 安装 开 
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图 1-2 ”蓝领 (bc ) 、 白 领 (wc ) 、 专 业 工 作者 (prof ) 的 收入 、 受 教育 程度 和 职业 声 
望 之 间 的 关系 。 资 料 来 源 : John Fox 编 写 的 car 包 ( 函数 scatterplotMatrix() )。 
使 用 其 他 统计 编程 语言 很 难 绘制 类 似 的 图 形 ， 但 在 R 中 只 需 一 到 两 行 代 码 



































1.2 RR 的 获取 和 安装 


R 可 以 在 CRAN ( Comprehensive R Archive Network，http://cran.r-project.org ) 上 免费 下 载 。 
Linux、Mac OS X 和 Windows 都 有 相应 编译 好 的 二 进 制 版 本 。 根 据 你 所 选择 平台 的 安装 说 明 进行 
安装 即 可 。 稍 后 我 们 将 讨论 如 何 通过 安装 称 为 包 (package ) 的 可 选 模块 〈 同样 可 从 CRAN 下 载 ) 
来 增强 R 的 功能 。 附 录 G 描 述 了 如 何 对 R 进 行 版 本 升级 。 


1.3 RR 的 使 用 


R 是 一 种 区 分 大 小 写 的 解释 型 语言 。 你 可 以 在 命令 提示 符 ( > ) 后 每 次 输入 并 执行 一 条 命令 ， 
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或 者 一 次 性 执行 写 在 脚本 文件 中 的 一 组 命令 。 R 中 有 多 种 数据 类 型 , 包括 向 量 、 和 矩阵 、 数 据 框 ( 与 "a 
数据 集 类 似 ) 以 及 列表 ( 各 种 对 象 的 集合 )。 我 们 将 在 第 2 章 中 讨论 这 些 数据 类 型 。 
R 中 的 多 数 功 能 是 由 程序 内 置 函 数 、 用 户 自 编 函数 和 对 对 象 的 创建 和 操作 所 提供 的 。 一 个 对 
象 可 以 是 任何 能 被 赋值 的 东西 。 对 于 R 来 说 ， 对 象 可 以 是 任何 东西 ( 数据、 函数 、 图 形 、 分 析 结 
果 ， 等 等 )。 每 一 个 对 象 都 有 一 个 类 属性 ， 类 属性 可 以 告诉 R 怎 么 对 之 进行 处 理 。 
一 次 交互 式 会 话 期 间 的 所 有 数据 对 象 都 被 保存 在 内 存 中 。 一 些 基本 函数 是 默认 直接 可 用 的 ， 
而 其 他 高 级 函数 则 包含 于 按 需 加 载 的 程序 包 中 。 
R 语 句 由 函数 和 赋值 构成 。R 使 用 <- ， 而 不 是 传统 的 -作为 赋值 符号 。 例 如 ， 以 下 语句 ; 


XxX <- rnorm(5s) 


创建 了 一 个 名 为 x 的 向 量 对 象 ， 它 包含 5 个 来 自 标准 正 态 分 布 的 随机 偏差 。 






































注意 RR 允许 使 用 = 为 对 象 赋值 , 但 是 这 样 写 的 RR 程序 并 不 多 , 因为 它 不 是 标准 语法 ,一 些 情况 下 ， 
用 等 号 赋值 会 出 现 问题 ，R 程 序 员 可 能 会 因此 取笑 你 。 你 还 可 以 反 转 赋值 方向 。 例 如 ， 
rnorm(5) -> x 与 上 面 的 语句 等 价 。 重 申 一 下 ， 使 用 等 号 赋值 的 做 法 并 不 常见 ， 在 本 书 
中 不 推荐 使 用 。 


注释 由 符号 # 开 头 。 在 # 之 后 出 现 的 任何 文本 都 会 被 R 解 释 器 忽略 。 


1.3.1 新 手 上 路 


如 果 你 使 用 的 是 Windows， 从 开始 菜单 中 启动 R。 在 Mac 上 ， 则 需要 双击 应 用 程序 文件 夹 中 
的 R 图 标 。 对 于 Linux， 在 终端 窗口 中 的 命令 提示 符 下 敲 人 R 并 回 车 。 这 些 方 式 都 可 以 启动 R (R 
界面 参见 图 1-3 )。 


展 RConsole (64-bit) 
File Edit Misc Packages Windows Help 











R is free software and comes with ABSOLUTELY NO WARRANTY. 
You are welcome to redistribute it under certain conditions. 
Type 'license()' or 'licence()' for distribution details. 


Natural language support but running in an English locale 
R is a collaborative project with many contributors. 
Type 'contributors()' for more information and 
'citation()' on how to cite R or R packages in publications. 
Type ‘'demo{()' for some demos, 'help()' for on-line help, or 
"help.start()' for an HTML browser interface to help. 


Type 'q()' to quit R. 


[Previously saved workspace restored] 


>| 

















图 1-3 Windows 中 的 R 界 面 
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1 七 个 元 





让 我 们 通过 一 个 简单 的 虚构 示例 来 直观 地 感受 一 下 这 个 界面 。 假 设 我 们 正在 研究 生理 发 育 问 
题 ， 并 收集 了 10 名 婴儿 在 出 生 后 一 年 内 的 月 龄 和 体重 数据 ( 见 表 1-1 )。 我们 感 兴 趣 的 是 体重 的 分 
布 及 体重 和 月 龄 的 关系 。 


























表 1-1 10 名 婴儿 的 月 龄 和 体重 





年 龄 〈 月 ) 体重 〈kg) 年 龄 〈 月 ) 体重 〈kg) 
01 4.4 09 7.3 
03 5.3 03 6.0 
05 7.2 09 10.4 
02 52 12 10.2 
11 8.5 03 6.1 








注 : 以 上 为 虚构 数据 。 


代码 清单 1-1 给 出 了 分 析 的 过 程 。 可 以 使 用 函数 c () 以 向 量 的 形式 输入 月 龄 和 体重 数据 , 此 函 
数 可 将 其 参数 组 合成 一 个 向 量 或 列表 。 然 后 用 mean () 、sq() 和 cor () 函数 分 别 获 得 体重 的 均值 
和 标准 差 ， 以 及 月 龄 和 体重 的 相关 度 。 最 后 使 用 plot () 函数 ， 从 而 用 图 形 展示 月 龄 和 体重 的 关 
系 ,这 样 就 可 以 用 可 视 化 的 方式 检查 其 中 可 能 存在 的 趋势 。 函 数 a () 将 结束 会 话 并 允许 你 退出 R。 


代码 清单 1-1 一 个 R 会 话 示例 
> lo = Se fe eS np WM po We i Wr RD) 
> WelLght se C04 S32 nd S36 70 L044y L102 67l:) 
> mean (weight) 
[LL] 7:06 
> sdl(weignht) 
[1] 2.077498 
> cor(age,weight) 
bd -0.59045655 
> plot (age,weight) 
> ql() 


从 代码 清单 1-1 中 可 以 看 到 ， 这 10 名 婴儿 的 平均 体重 是 7.06kg， 标准 差 为 2.08Kg， 月 龄 和 体重 
之 间 存 在 较 强 的 线性 关系 ( 相关 度 =0.91 ), 这 种 关系 也 可 以 从 图 1-4 所 示 的 散 点 图 中 看 到 。 不 出 意 
料 ， 随 着 月 龄 的 增长 ， 婴 儿 的 体重 也 趋 于 增加 。 

散 点 图 1-4 的 信息 量 充 足 ， 但 过 于 “功利 ”， 也 不 够 美观 。 接 下 来 的 几 章 里 ， 我 们 会 讲 到 如 何 
自 定义 图 形 以 契合 需要 。 



































小 提示 “车 想 大 致 了 解 R 能 够 作出 何 种 图 形 ， 在 命令 行 中 运行 aemo () 即 可 。 生 成 的 部 分 图 形 如 
图 1-5 所 示 。 其 他 的 演示 还 有 demo (Hershev) 、demo (persp) 和 demo (image)。 要 看 
到 完整 的 演示 列表 ， 不 加 参数 直接 运行 demo () 即 可 。 





1.3 RR 的 使 用 
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图 1-4 婴儿 体重 (千克) 和 年 龄 (月 ) 的 散 点 图 
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图 1-5 ”函数 aemo () 绘 制 的 图 形 示例 
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1.3.2 ”获取 帮助 


R 提 供 了 大 量 的 帮助 功能 ,学 会 如 何 使 用 这 些 帮 助 文档 可 以 在 相当 程度 上 助力 你 的 编程 工作 。 
R 的 内 置 帮助 系统 提供 了 当前 已 安装 包 中 所 有 函数 "的 细节 、 参 考 文献 以 及 使 用 示例 。 你 可 以 通过 
表 1-2 中 列 出 的 函数 查看 帮助 文档 。 








表 1-2 R 中 的 帮助 函数 



















































































函 数 功 能 
help.start () 打开 帮助 文档 首页 
help ("foo") 或 ?foo 查看 函数 foo 的 帮助 (引号 可 以 省 略 ) 
help.search ("foo") 或 ??foo 以 foo 为 关键 词 搜索 本 地 帮助 文档 
example ("foo") 函数 foo 的 使 用 示例 (引号 可 以 省 略 ) 
RSitesearch ("foo") 以 foo 为 关键 词 搜索 在 线 文档 和 邮件 列表 存档 
apropos ("foo", mode="function") 列 出 名 称 中 含有 foo 的 所 有 可 用 函数 
data() 列 出 当前 已 加 载 包 中 所 含 的 所 有 可 用 示例 数据 集 
vignette!() 列 出 当前 已 安装 包 中 所 有 可 用 的 vignette 文档 
vignette ("foo") 为 主题 foo 显示 指定 的 vignette 文档 


函数 help .start () 会 打开 一 个 浏览 器 窗口 ,我 们 可 在 其 中 查看 入 门 和 高 级 的 帮助 手册 、 常 
见 问题 集 ， 以 及 参考 材料 。 函 数 RSitesearch () 可 在 在 线 帮 助手 册 和 R-Help 邮 件 列表 的 讨论 存 
档 中 搜索 指定 主题 ， 并 在 浏览 器 中 返回 结果 。 由 函数 vignette () 函数 返回 的 vignette 文 档 一 般 是 
PDF 格式 的 实用 介绍 性 文章 。 不 过 ， 并非 所 有 的 包 都 提供 了 vignette 文 档 。 不 难 发 现 ，R 提 供 了 大 
量 的 帮助 功能 ， 学 会 如 何 使 用 这 些 帮助 文档 ， 毫 无 疑问 有 助 于 编程 。 我 经 常 使 用 ?来 查看 某 些 函 
数 的 功能 (如 选项 或 返回 值 )。 










































































1.3.3 ”工作 空间 


工作 空间 ( workspace ) 就 是 当前 R 的 工作 环境 ,， 它 存储 着 所 有 用 户 定 义 的 对 象 ( 癌 量 、 和 矩阵 、 
函数 、 数 据 框 、 列 表 )。 在 一 个 R 会 话 结束 时 ， 你 可 以 将 当前 工作 空间 保存 到 一 个 镜像 中 ,并 在 下 
次 启动 R 时 自动 载 人 它 。 各 种 命令 可 在 R 命 令 行 中 交互 式 地 输入 。 使 用 上 下 方向 键 查看 已 输入 命 
令 的 历史 记录 。 这 样 我 们 就 可 以 选择 一 个 之 前 输入 过 的 命令 并 适当 修改 ,最 后 按 回 车 重新 执行 它 。 

当前 的 工作 目录 ( working directory ) 是 R 用 来 读 取 文件 和 保存 结果 的 默认 目录 。 我 们 可 以 使 
用 函数 getwa () 来 查看 当前 的 工作 目录 , 或 使 用 函数 setwa ( ) 设 定 当前 的 工作 目录 。 如 果 需 要 读 
和 人 一 个 不 在 当前 工作 目录 下 的 文件 , 则 需 在 调用 语句 中 写 明 完整 的 路 径 。 记 得 使 用 引号 闭合 这 些 
目录 名 和 文件 名 。 用 于 管理 工作 空间 的 部 分 标准 命令 见 表 1-3。 






















































































中 确切 地 说 ， 这 里 的 “所 有 ”是 指 那 些 已 导出 的 ( exported )、 对 用 户 可 见 的 函数 。 一 一 译 者 注 
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表 1-3 ”用 于 管理 R 工 作 空间 的 函数 
























































函 数 功 能 
getwd () 显示 当前 的 工作 目录 
setwd ("mydirectory") 修改 当前 的 工作 目录 为 mydirectory 
1s() 列 出 当前 工作 空间 中 的 对 象 
rm(opjectlist) 移 除 (删除 ) 一 个 或 多 个 对 象 
help (options) 显示 可 用 选项 的 说 明 
options () 显示 或 设置 当前 选项 
history (#) 显示 最 近 使 用 过 的 # 个 命令 ( 默认 值 为 25 ) 
savehistory ("myfile") 保存 命令 历史 到 文件 myfile 中 (默认 值 为 .Rhistory ) 
loadhistory ("myfile") 载 和 一 个 命令 历史 文件 ( 默认 值 为 .Rhistory ) 
save.image ("myfile") 保存 工作 空间 到 文件 myfile 中 (默认 值 为 .RData ) 
save (objectlist, file="myfile") 保存 指定 对 象 到 一 个 文件 中 
lo0ad ("myfile") 读 取 一 个 工作 空间 到 当前 会 话 中 ( 默认 值 为 .RData ) 
a() 退出 R。 将 会 询问 你 是 否 保存 工作 空间 

















要 了 解 这 些 命令 是 如 何 运 作 的 ， 运 行 代码 清单 1-2 中 的 代码 并 查看 结果 。 
代码 清单 1-2 用 于 管理 R 工 作 空间 的 命令 使 用 示例 


setwd("C:/myprojects/project1") 
options () 

SpCLONS (dLoLitSSy 

x <- runif(20) 

summary (x) 

hist (x) 

q() 


首先 ， 当 前 工作 目录 被 设置 为 C:/myprojects/project1， 当 前 的 选项 设置 情况 将 显示 出 来 ， 而 
数字 将 被 格式 化 ， 显 示 为 具有 小 数 点 后 三 位 有 效 数字 的 格式 。 然 后 ,我 们 创建 了 一 个 包含 20 个 均 
匀 分 布 随机 变量 的 向 量 ， 生 成 了 此 数据 的 摘要 统计 量 和 直方 图 。 当 gq () 函数 被 运行 的 时 候 ， 程 序 
将 向 用 户 询问 是 否 保存 工作 空间 。 如 果 用 户 输入 y， 命 令 的 历史 记录 保存 到 文件 . Rhistory 中 ， 工 
作 空 间 (包含 向 量 x ) 保存 到 当前 目录 中 的 文件 .RData 中 ， 会 话 结 束 ，R 程 序 退 出 。 
注意 setwa () 命令 的 路 径 中 使 用 了 正 斜 枉 。 有 将 反 斜 枉 (\ ) 作为 一 个 转 义 符 。 即 使 你 在 
Windows 平 台 上 运行 R， 在 路 径 中 也 要 使 用 正 斜 杜 。 同 时 注意 ， 函 数 setwa () 不 会 自动 创建 一 个 
不 存在 的 目录 。 如 果 必 要 的 话 ， 可 以 使 用 函数 air.create() 来 创建 新 目录 ， 然 后 使 用 setwad() 
将 工作 目录 指向 这 个 新 目录 。 
在 独立 的 目录 中 保存 项 目 是 一 个 好 主意 。 你 也 许 会 在 启动 一 个 R 会 话 时 使 用 setwad ( ) 命令 指 
定 到 某 一 个 项 目的 路 径 , 后 接 不 加 选项 的 10ad (" .RData") 命 令 。 这样 做 可 以 让 你 从 上 一 次 会 话 
结束 的 地 方 重新 开始 , 并 保证 各 个 项 目 之 间 的 数据 和 设置 互 不 干扰 。 在 Windows 和 Mac OS X 平 台 
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上 就 更 简单 了 。 跳 转 到 项 目 所 在 目录 并 双击 之 前 保存 的 镜像 文件 即 可 。 这 样 做 可 以 启动 R， 载 人 
保存 的 工作 空间 ， 并 设置 当前 工作 目录 到 这 个 文件 夹 中 。 


1.3.4 ”输入 和 输出 


启动 R 后 将 默认 开始 一 个 交互 式 的 会 话 ， 从 键盘 接受 输入 并 从 屏幕 进行 输出 。 不 过 你 也 可 以 
处 理 写 在 一 个 脚本 文件 (一 个 包含 了 R 语 句 的 文件 ) 中 的 命令 集 并 直接 将 结果 输出 到 多 类 目标 中 。 

1. 输入 

因数 source("fi7ename") 可 在 当前 会 话 中 执行 一 个 脚本 。 如 果 文 件 名 中 不 包含 路 径 ，R 将 
假设 此 脚本 在 当前 工作 目录 中 。 举 例 来 说 ，source ("myscript.R") 将 执行 包含 在 文件 
myscript.R 中 的 R 语 句 集 合 。 依 照 惯 例 ， 脚 本 文件 以 .R 作 为 扩展 名 ， 不 过 这 并 不 是 必需 的 。 

2. 文本 输出 

函数 sink ("filename" ) 将 输出 重 定向 到 文件 flename 中 。 默认 情况 下 ,如 果 文 件 已 经 存在 ， 
则 它 的 内 容 将 被 覆盖 。 使 用 参数 appendq=TRUE 可 以 将 文本 追加 到 文件 后 ， 而 不 是 覆盖 它 。 人 参数 
split=TRUE 可 将 输出 同时 发 送 到 屏幕 和 输出 文件 中 。 不 加 参数 调用 命令 sink () 将 仅 向 屏幕 返回 
输出 结果 。 

3. 图 形 输出 
虽然 sink() 可 以 重 定向 文本 输出 ， 但 它 对 图 形 输出 没有 影响 。 要 重 定向 图 形 输出 ， 使 用 表 
1-4 中 列 出 的 函数 即 可 。 最 后 使 用 aev.off () 将 输出 返回 到 终端 。 


表 1-4 用 于 保存 图 形 输出 的 函数 
















































































函 数 输 出 
bmp ("filename.bmp") BMP 文件 
jpeg ("filename.jpg") JPEG 文件 
pdaf ("filename.pdf") PDF 文件 
png ("filename.png") PNG 文件 
postscript ("filename.ps") PostScript 文件 
svg ("filename.svg") SVG 文件 
win.metafile("filename.wmf") Windows 图 元 文件 





让 我 们 通过 一 个 示例 来 了 解 整个 流程 。 假 设 我 们 有 包含 R 代 码 的 三 个 脚本 文件 script1.R、 
script2.R 和 script3.R。 执 行 语句 : 

source ("script1.R") 
将 会 在 当前 会 话 中 执行 script1.R 中 的 R 人 代码， 结果 将 出 现在 屏幕 上 。 

如 果 执 行 语句 : 

sink ("myoutput", append=TRUE, split=TRUE) 


pdf ("mygraphs .pdf") 
source ("script2.R") 





1.4 包 13 











文件 script2.R 中 的 R 代 码 将 执行 ， 结 果 也 将 显示 在 屏幕 上 。 除 此 之 外 ， 文 本 输出 将 被 追加 到 | 
文件 myoutput 中 ， 图 形 输出 将 保存 到 文件 mygraphs.pdf 中 。 
后 ， 如 果 我 们 执行 语句 : 
sink() 


dev.off() 
source ("script3.R") 


文件 script3.R 中 的 R 代 码 将 执行 ， 结 果 将 显示 在 屏幕 上 。 这 一 次 ,没有 文本 或 图 形 输 出 保存 到 文 
件 中 。 整 个 流程 大 致 如 图 1-6 所 示 。 


source("script1.R") 
script1.R p> 
wl] 


sink("myoutput", append=TRUE, split=TRUE) 


- 


source("script2.R") 
一 
ES 

~ myoutput 
输出 后 被 追 


pdf("mygraphs.pdf") 如 到 文件 后 


sink(), dev.off() 


source("script3.R") 
一 (网 一 
| 


图 1-6 使 用 函数 source () 进行 输入 并 使 用 函数 sink () 进行 输出 


R 对 输入 来 源 和 输出 走向 的 处 理 相 当 灵 活 ， 可 控 性 很 强 。 在 1.5 节 中 ,我 们 将 学 习 如 何在 批 处 
时 模式 下 运行 RR 程序。 


1.4 包 


R 提 供 了 大 量 开 箱 即 用 的 功能 ， 但 它 最 激动 人 心 的 一 部 分 功能 是 通过 可 选 模块 的 下 载 和 安装 
来 实现 的 。 目 前 有 5500 多 个 称 为 包 (package ) 的 用 户 贡 献 模 块 可 从 http://cran.r-project.org/ 
web/packages 下 载 。 这 些 包 提 供 了 横 跨 各 种 领域 、 数 量 惊人 的 新 功能 ， 包 括 分 析 地 理 数据 、 处 理 
蛋白 质 质谱 ， 其 至 是 心理 测验 分 析 的 功能 。 本 书 中 多 次 使 用 了 这 些 可 选 包 。 
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1.4.1 什么 是 包 


包 是 RR 函 数 、 数 据 、 预 编译 代码 以 一 种 定义 完善 的 格式 组 成 的 集合 。 计 算 机 上 存储 包 的 目录 
称 为 库 (library )。 函 数 .1ipPaths () 能 够 显示 库 所 在 的 位 置 ， 函 数 1iprary() 则 可 以 显示 库 中 
有 哪些 包 。 

有 R 自 带 了 一 系列 默认 包 (包括 base、dqatasets、utils、grDevices 、graphics 、stats 
以 及 methods )， 它 们 提供 了 种 类 繁多 的 默认 函数 和 数据 集 。 其 他 包 可 通过 下 载 来 进行 安装 。 
安装 好 以 后 ， 它 们 必须 被 载 人 到 会 话 中 才能 使 用 。 命 令 search () 可 以 告诉 你 哪些 包 已 加 载 并 
可 使 用 。 


1.4.2 包 的 安装 


有 许多 RR 函数 可 以 用 来 管理 包 。 第 一 次 安装 一 个 包 , 使 用 命令 instal1.packages () 即 可 。 
举例 来 说 ， 不 加 参数 执行 命令 install .packages () 将 显示 一 个 CRAN 镜 像 站 点 的 列表 ， 选 择 
其 中 一 个 镜像 站 点 之 后 ,将 看 到 所 有 可 用 包 的 列表 ， 选 择 其 中 的 一 个 包 即 可 进行 下 载 和 安装 。 
如 果 知 道 自 己 想 安装 的 包 的 名 称 ， 可 以 直接 将 包 名 作为 参数 提供 给 这 个 函数 。 例 如 ， 包 gclus 
中 提供 了 创建 增强 型 散 点 图 的 函数 。 可 以 使 用 命令 instal1.packages("gclus") 来 下 载 和 安 
装 它 。 

一 个 包 仅 需 安装 一 次 。 但 和 其 他 软件 类 似 ， 包 经 党 被 其 作者 更 新 。 使 用 命令 
update.packages () 可 以 更 新 已 经 安装 的 包 。 要 查看 已 安装 包 的 描述 ， 可 以 使 用 installea. 
packages () 命令 ， 这 将 列 出 安装 的 包 ， 以 及 它们 的 版 本 号 、 依 赖 关 系 等 信息 。 


1.4.3 包 的 载 入 


包 的 安装 是 指 从 某 个 CRAN 镜 像 站 点 下 载 它 并 将 其 放 入 库 中 的 过 程 。 要 在 R 会 话 中 使 用 它 ， 
还 需要 使 用 1ibrary () 命令 载 人 这 个 包 。 例如， 要 使 用 gclus 包 ， 执 行 命令 library (gclus) 
即 可 。 当 然 ， 在 载 和 一 个 包 之 前 必须 已 经 安装 了 这 个 包 。 在 一 个 会 话 中 , 包 只 需 载 和 一次。 如 果 
需要 ， 你 可 以 自 定义 启动 环境 以 自动 载 入 会 频繁 使 用 的 那些 包 。 启 动 环境 的 自 定义 在 附录 B 中 有 
详细 描述 。 


1.4.4” 包 的 使 用 方法 


载 人 一 个 包 之 后 , 就 可 以 使 用 一 系列 新 的 函数 和 数据 集 了 。 包 中 往往 提供 了 演示 性 的 小 型 数 
据 集 和 示例 代码 ,能够 让 我 们 尝试 这 些 新 功能 。 帮 助 系统 包含 了 每 个 函数 的 一 个 描述 ( 同时 带 有 
示例 )， 每 个 数据 集 的 信息 也 被 包括 其 中 。 命 令 help (package="package_name") 可 以 输出 某 
个 包 的 简短 描述 以 及 包 中 的 本 数 名 称 和 数据 集 名 称 的 列表 。 使 用 冰 数 help () 可 以 查看 其 中 任意 
函数 或 数据 集 的 更 多 细节 。 这 些 信 息 也 能 以 PDF 帮助 手册 的 形式 从 CRAN 下 载 。 
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R 语 言 编程 中 的 常见 错误 
有 一 些 错误 是 有 R 的 初学 者 和 经 验 丰富 的 R 程 序 员 都 可 能 常 犯 的 。 如 果 程 序 出 错 了 ， 请 检查 

以 下 几 方 面 。 
口 使 用 了 错误 的 大 小 写 。help() 、Help () 和 HELP() 是 三 个 不 同 的 函数 ( 只 有 第 一 个 是 
正确 的 )。 
口 忘记 使 用 必要 的 引号 。install.packages ("gclus") 能 够 正常 执行 ， 然 而 
Install.packages (gclus) 将 会 报错 。 
口 在 函数 调用 时 忘记 使 用 括号 。 例 如 ， 要 使 用 help () 而 非 help。 即 使 函数 无 需 参 数 ， 仍 
El) 
口 在 Windows 上 ， 路 径 名 中 使 用 了 \。R 将 反 斜 杠 视 为 一 个 转 义 字符 。 

setwd("c:\mydata") 会 报错 。 正确 的 写法 是 setwd("c:/mydata") 或 

Seiewel en 
口 使 用 了 一 个 尚未 载 入 包 中 的 函数 。 函 数 ordqer .clusters() 包含 在 包 gclus 中 。 如果 还 

没有 载 入 这 个 包 就 使 用 它 ， 将 会 报错 。 























R 的 报错 信息 可 能 是 含义 模糊 的 ， 但 如 果 谨 慎 遵 守 了 以 上 要 点 ， 就 应 该 可 以 避免 许多 错误 。 


1.5 批 处 理 


多 数 情 况 下 , 我 们 都 会 交互 式 地 使 用 R: 在 提示 符 后 输入 命令 , 接着 等 待 该 命令 的 输出 结果 。 
偶尔 ， 我 们 可 能 想 要 以 一 种 重复 的 、 标 准 化 的 、 无 人 值守 的 方式 执行 某 个 R 程 序 。 例 如 ， 你 可 能 
需要 每 个 月 生成 一 次 相同 的 报告 ， 这 时 就 可 以 在 R 中 编写 程序 ， 在 批 处 理 模式 下 执行 它 。 

如 何以 批 处 理 模 式 运 行 R 与 使 用 的 操作 系统 有 关 。 在 Linux 或 Mac OS X 系 统 下 ， 可 以 在 终端 
窗口 中 使 用 如 下 命令 : 

R CMD BATCH options infile outfile 
其 中 infile 是 包含 了 要 执行 的 R 代 码 所 在 文件 的 文件 名 ，outfile 是 接收 输出 文件 的 文件 名 ， 
options 部 分 则 列 出 了 控制 执行 细节 的 选项 。 依 照 惯 例 ，infile 的 扩展 名 是 .R，outfile 的 扩 
展 名 为 .Rout。 

对 于 Windows， 则 需 使 用 : 


"C:\Program Files\R\R-3.1.0\bin\R.exe" CMD BATCH 
w --Vanilla --slave "c:\my projects\myscript.R" 


将 路 径 调整 为 R.exe 所 在 的 相应 位 置 和 脚本 文件 所 在 位 置 。 要 进一步 了 解 如 何 调用 R, 包括 命令 行 
选项 的 使 用 方法 ， 请 参考 CRAN ( http://cran.r-project.org ) 上 的 文档 “Introduction to R”"。 





























Q@ 中 文 版 文档 名 为 “R 导 论 ”。CRAN 上 的 下 载 地 址 为 http://cran.r-project.org/doc/contrib/Ding-R-intro_cn.pdf。 

















1.6 ”将 输出 用 为 输入 : 结果 的 重用 


了 R 的 一 个 非常 实用 的 特点 是 ， 分 析 的 输出 结果 可 轻松 保存 ， 并 作为 进一步 分 析 的 输入 使 用 。 
让 我 们 通过 一 个 R 中 已 经 预先 安装 好 的 数据 集 作为 示例 阐明 这 一 点 。 如 果 你 无 法 理解 这 里 涉及 的 
统计 知识 ， 也 别 担心 ， 我 们 在 这 里 关注 的 只 是 一 般 原 理 。 

首先 ， 利 用 汽车 数据 mtcars 执 行 一 次 简单 线性 回归 ， 通 过 车 身 重量 (wt ) 预测 每 加 仑 行驶 
的 英里 数 ( mpg )。 可 以 通过 以 下 语句 实现 : 


lm(mpg~wt, data=mtcars) 


结果 将 显示 在 屏幕 上 ， 不 会 保存 任何 信息 。 

下 一 步 ， 执 行 回归 ， 区 别 是 在 一 个 对 象 中 保存 结 

lmfit <- lm(mpg~wt, data=mtcars) 

以 上 赋值 语句 创建 了 一 个 名 为 1mfit 的 列表 对 象 , 其 中 包含 了 分 析 的 大 量 信息 ( 包括 预测 值 、 
残 差 、 回 归 系 数 等 )。 虽 然 屏幕 上 没有 显示 任何 输出 ， 但 分 析 结果 可 在 稍 后 被 显示 和 继续 使 用 。 

键入 summary (Imfit) 将 显示 分 析 结 果 的 统计 概要 ，plot (lmfit) 将 生成 回归 诊断 图 形 ， 
而 语句 cook<-cooks.dqistance(lmfit) 将 计算 和 保存 影响 度量 统计 量 "，plot (cook) 对 其 绘 
图 。 要 在 新 的 车 身 重量 数据 上 对 每 加 仑 行驶 的 英里 数 进行 预测 ， 不 妨 使 用 predict (lmfit， 
mynewdata)。 

要 了 解 某 个 函数 的 返回 值 ， 查 阅 这 个 函数 在 线 帮助 文档 中 的 “Value” 部 分 即 可 。 本 例 中 应 
当 查 阅 help (lm) 或 ?lm 中 的 对 应 部 分 。 这 样 就 可 以 知道 将 某 个 函数 的 结果 赋值 到 一 个 对 象 时 ， 
保存 下 来 的 结果 具体 是 什么 。 


1.7 处理 大 数据 集 


程序 员 经 常 问 我 R 是 否 可 以 处 理 大 数据 问题 。 他 们 往往 需要 处 理 来 自 互 联网 、 气 候 学 、 遗 传 
学 等 研究 领域 的 海量 数据 。 由 于 R 在 内 存 中 存储 对 象 ， 往 往 会 受 限 于 可 用 的 内 存量 。 举 例 来 说 ， 
在 我 服役 了 5 年 的 2G 内 存 Windows PC 上 ， 我 可 以 轻松 地 人 处理 含有 1000 万 个 元 素 的 数据 集 ( 100 个 
变量 x100 000 个 观测 ), 在 一 台 4G 内 存 的 1Mac 上 , 我 通常 可 以 不 费力 地 处理 含有 上 亿 元 素 的 数据 。 

但 是 也 要 考虑 到 两 个 问题 : 数据 集 的 大 小 和 要 应 用 的 统计 方法 。R 可 以 处 理 GB 级 到 TB 级 的 
数据 分 析 问 题 ， 但 需要 专门 的 手段 。 大 数据 集 的 管理 和 分 析 问 题 留 待 附录 F 中 讨论 。 


1.8 ”示例 实践 


我 们 将 以 一 个 结合 了 以 上 各 种 命令 的 示例 结束 本 章 。 以 下 是 任务 描述 。 
(1) 打开 帮助 文档 首页 ， 并 查阅 其 中 的 “Introduction to R”。 















































































































































Qz 这 里 使 用 了 Cook 距 离 作 为 度量 影响 的 统计 量 ， 详 见 第 8 章 。 一 一 译 者 注 














1.8 示例 实践 


17 





(2) 安装 vca 包 (一 个 用 于 可 视 化 类 别 数据 的 包 ， 你 将 在 第 11 章 中 使 用 )。 


(3) 列 出 此 包 中 可 用 的 函数 和 数据 集 。 


Wr 








出 





(4) 载 人 这 个 包 并 阅读 数据 集 Arthritis 的 描述 。 
(5) 显示 数据 集 Arthritis 的 内 容 ( 直接 输入 一 个 对 象 的 名 称 将 列 出 它 的 内 容 )。 











(6) 运行 数据 集 Arthritis 自 带 的 示例 。 如 果 不 理解 输出 结果 ， 也 不 要 担心 。 它 基本 上 显示 
了 接受 治疗 的 关 方 炎 患 者 较 接 受 安慰 剂 的 患者 在 病情 上 有 了 更 多 改善 。 


所 需 的 代码 如 代码 清单 1-3 所 示 ， 图 1-7 显 示 了 结果 的 示例 。 如 本 例 所 示 ， 我 们 只 需 使 用 


(7) 退出 。 
R 代 码 即 可 完成 大 量 工作 。 
代码 清单 1-3 ”使 用 一 个 新 的 包 
help.start() 


install.packages ("vcd") 
help (package="vcd") 
library (ved) 

help (Arthritis) 
Arthritis 

example (Arthritis) 

q() 


tion on package "ved' 





图 1-7 代码 清单 1-3 的 输出 。 

















OB The RLanguage - Windomy Internet Expiceer 
JEN [gm 22 =| BT [Xm ceorie 
LS 


寅 favortes a TheRlanguage 





Statistical Data Analysis 
(全 
[PS 


Manuals 


An Introdystion to The R Language Definition 





Writing R Extensions R Installation and Adninistration 


逢 RRAnheits Treatment Data Windows ntemet Explo 中 加 芒 


(10ME ~[ BT TX | ocrie 
富 foverites mR Arhits Tremment Oats 
Arthritis {ved} R Documentation 
Arthritis Treatment Data = 

Description 

Data from Koch \& Edwards (1988) from a double-blind 

clinical vial investigating a new treatment for rheumatoid 

arthritis, 

Usage 


data{"Arthritis") 


Format 








A data frame with 84 observations and 5 variables. 


( 从 左 至 右 ) 为 关节 炎 示 例 的 输出 结果 、 帮 助 文档 首页 、 

















vcd 包 的 信息 、Arthritis 数 据 集 的 信息 ， 以 及 一 幅 展 示 关 节 炎 治疗 情况 和 治 





疗 结果 之 间 关 系 的 图 

















1.9 小结 


本 章 中 ,我 们 了 解 了 R 的 一 些 优点 ， 正 是 这 些 优 点 吸引 了 学 生 、 研 究 者 、 统 计 学 家 以 及 数据 
分 析 师 等 希望 理解 数据 所 具有 意义 的 人 。 我 们 从 程序 的 安装 出 发 ,讨论 了 如 何 通过 下 载 附加 包 来 
增强 R 的 功能 。 探索 了 R 的 基本 界面 ， 以 交互 和 批 处 理 两 种 方式 运行 了 R 程 序 ， 并 绘制 了 一 些 示 例 
图 形 。 还 学 习 了 如 何 将 工作 保存 到 文本 和 图 形 文件 中 。 由 于 R 的 复杂 性 ,我们 花 了 一 些 时 间 来 了 
解 如 何 访问 大 量 现成 可 用 的 帮助 文档 。 和 希望 你 对 这 个 免费 软件 的 强大 之 处 有 了 一 个 总 体 的 感觉 。 

既然 已 经 能 够 正常 运行 R， 那 么 是 时 候 把 玩 你 自己 的 数据 了 。 在 下 一 章 中 ， 我 们 将 着 眼 于 R 
能 够 处 理 的 各 种 数据 类 型 ， 以 及 如 何 从 文本 文件 、 其 他 程序 和 数据 库 管 理 系统 中 导入 数据 。 





















































创建 数据 集 








本 章 内 容 

口 探索 R 中 的 数据 结构 
口 输入 数据 

口 导入 数据 

口 标注 数据 





按照 个 人 要 求 的 格式 来 创建 含有 研究 信息 的 数据 集 ， 这 是 任何 数据 分 析 的 第 一 步 。 在 R 中 ， 


这 个 任务 包括 以 下 两 步 : 


三 


里 、 


口 选择 一 种 数据 结构 来 存储 数据 ; 

口 将 数据 输入 或 导入 到 这 个 数据 结构 中 。 

本 章 的 第 一 部 分 (2.1~ 2.2 节 ) 叙述 了 R 中 用 于 存储 数据 的 多 种 结构 。 其 中 ，2.2 节 描述 了 向 
因子 、 和 矩阵 、 数 据 框 以 及 列表 的 用 法 。 熟 悉 这 些 数据 结构 〈 以 及 访问 其 中 元 素 的 表述 方法 ) 








将 十 分 有 助 于 了 解 R 的 工作 方式 ， 因 此 你 可 能 需要 耐心 消化 这 一 节 的 内 容 。 


本 章 的 第 二 部 分 (2.3 节 ) 涵盖 了 多 种 向 R 中 导入 数据 的 可 行 方法 。 可 以 手工 输入 数据 ， 亦 可 





从 外 部 源 导 入 数据 。 数 据 源 可 为 文本 文件 、 电 子 表格 、 统 计 软 件 和 各 类 数据 库 管 理 系统 。 举 例 来 
说 , 我 在 工作 中 使 用 的 数据 往往 来 自 于 SQL 数据 库 。 偶尔 , 我 也 会 接受 从 DOS 时 代 遗 留 下 的 数据 ， 





ke 





或 是 从 现 有 的 SAS 和 SPSS 中 导出 的 数据 。 通 常 ,你 仅仅 需要 本 节 中 描述 的 一 两 种 方法 ,因此 根据 


需求 有 选择 地 阅读 即 可 。 




















创建 数据 集 后 ,往往 需要 对 它 进行 标注 ， 也 就 是 为 变量 和 变量 代码 添加 描述 性 的 标签 。 本 章 











的 第 三 部 分 ( 2.4 节 ) 将 讨论 数据 集 的 标注 问题 ， 0 函数 (2.5 节 )。 下 
es 


2.1 


想 的 病例 数据 集 。 








数据 集 的 概念 
数据 集 通 




















是 由 数据 构成 的 一 个 矩形 数组 ， 行 表示 观测 ， 列 表示 变量 。 表 2-1 提 供 了 一 个 假 


Ealy 

















人 
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表 2-1 病例 数据 
病人 编号 入 院 时 间 年 龄 糖尿 病 类 型 病情 

(PatientID) (AdmDate) (Age) (Diabetes) (Status) 
1 10/15/2009 25 Type 1 Poor 
2 11/01/2009 34 Type 2 Improved 
3 10/21/2009 28 Type 1 Excellent 
4 10/28/2009 52 Type 1 Poor 





不 同 的 行业 对 于 数据 集 的 行 和 列 叫 法 不 同 。 统 计 学 家 称 它们 为 观测 ( observation ) 和 变量 
( variable )， 数 据 库 分 析 师 则 称 其 为 记录 (record ) 和 字段 ( field ), 数据 挖 气 和 机 器 学 习 学 科 的 研 
究 者 则 把 它们 叫 作 示 例 (example ) 和 属性 (attribute )。 我 们 在 本 书 中 通 篇 使 用 术语 观测 和 变量 。 





你 可 以 清楚 地 看 到 此 数据 集 的 结构 





型 。 在 表 2-1 所 示 的 数据 集中 ，PatientID 是 行 /实例 标识 符 ， 














(本 例 中 是 一 个 矩形 数组 ) 以 及 其 中 包含 的 内 容 和 数据 类 


AdmDate 是 日 期 型 变量 ，Age 是 连 








续 型 变量 ，Diabetes 是 名 义 型 变量 ，Status 是 有 序 型 变量 。 

R 中 有 许多 用 于 存储 数据 的 结构 ， 包 括 标量 、 向 量 、 数 组 、 数 据 框 和 列表 。 表 2-1 实 际 上 对 应 
着 R 中 的 一 个 数据 框 。 多 样 化 的 数据 结构 赋予 了 R 极 其 灵活 的 数据 处 理 能 力 。 

R 可 以 处 理 的 数据 类 型 ( 模式 ) 包括 数值 型 、 字 符 型 、 逻 辑 型 ( TRUE/FALSE )、 复 数 型 ( 虚 


























数 ) 和 原生 型 ( 字 节 )。 在 R 中 , PatientID、AdmDate 和 Age 为 数值 型 变量 , 而 Diabetes 和 Status 
则 为 字符 型 变量 。 另 外 , 你 需要 分 别 告诉 R: PatientID 是 实例 标识 符 ，Admpate 含 有 日 期 数据 ， 



































Diabetes 和 Status 分 别 是 名 义 型 和 有 








让 型 变量 。R 将 实例 标识 符 称 为 rownames ( 行 名 )， 将 类 








别 型 (包括 名 义 型 和 有 序 型 ) 变量 称 为 
在 第 3 章 中 介绍 日 期 型 数据 的 处 理 。 


2.2 ”数据 结构 























因子 〈factors )。 我 们 会 在 下 一 节 中 讲解 这 些 内 容 ， 并 








R 拥 有 许多 用 于 存储 数据 的 对 象 类 型 ， 








包括 标量 、 向 量 、 和 矩阵 、 数 组 、 数 据 框 和 列表 。 它 们 








在 存储 数据 的 类 型 、 创 建 方式 、 结 构 复 杂 度 ,以 及 用 于 定位 和 访问 其 中 个 别 元 素 的 标记 等 方面 均 


有 所 不 同 。 图 2-1 给 出 了 这 些 数 据 结 构 的 一 个 示意 图 。 


(a) 向 量 


(qd) 数据 框 


EE 











(b) 矩阵 (0) 数组 
向 量 
(e) 列表 堵 组 . 
数据 框 
列表 


各 列 的 模式 (mode) 可 以 不 同 
图 2-1 RR 中 的 数据 结构 
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让 我 们 从 向 量 开始 ， 逐 个 探究 每 一 种 数据 结构 。 


一 些 定义 

R 中 有 一 些 术 语 较为 独特 ， 可 能 会 对 新 用 户 造 成 困扰 。 

在 R 中 ,对象 (object ) 是 指 可 以 赋值 给 变量 的 任何 事物 ， 包 括 常量 、 数 据 结构 、 函 数 ， 
甚至 图 形 。 对 象 都 拥有 某 种 模式 ， 描 述 了 此 对 象 是 如 何 存 储 的 ， 以 及 某 个 类 ， 像 Print 这 样 的 
泛 型 函数 表明 如 何 处 理 此 对 象 。 

与 其 他 标准 统计 软件 (如 SAS、SPSS 和 Stata ) 中 的 数据 集 类 似 ， 数 据 框 (data frame ) 是 R 
中 用 于 存储 数据 的 一 种 结构 : 列表 示 变 量 ,， 行 表 示 观 测 。 在 同一 个 数据 框 中 可 以 存储 不 同类 型 
(如 数值 型 、 字 符 型 ) 的 变量 。 数 据 框 将 是 你 用 来 存储 数据 集 的 主要 数据 结构 。 

因子 (factor ) 是 名 义 型 变量 或 有 序 型 变量 。 它 们 在 R 中 被 特殊 地 存储 和 处 理 。 你 将 在 2.2.5 
节 中 学 习 因子 的 处 理 。 

其 他 多 数 术 语 你 应 该 比较 熟悉 了 ， 它 们 基本 都 遵循 统计 和 计算 中 术语 的 定义 。 


2.2.1 向 量 




















向 量 是 用 于 存储 数值 型 、 字 符 型 或 逻辑 型 数据 的 一 维 数组 。 执 行 组 合 功能 的 函数 c () 可 用 来 
创建 向 量 。 各 类 向 量 如 下 例 所 示 : 
Ey yy GR 


b <- c("one", "two", "three") 
C <- C(TRUE, TRUE, TRUE, FALSE, TRUE, FALSE) 





这 里 ，a 是 数值 型 向 量 ，b 是 字符 型 向 量 ， 而 c 是 逻辑 型 向 量 。 注 意 ， 单个 向 量 中 的 数据 必须 
拥有 相同 的 类 型 或 模式 ( 数值 型 、 字 符 型 或 逻辑 型 )。 同一 向 量 中 无 法 混杂 不 同 模式 的 数据 。 











注意 标量 是 只 含 一 个 元 素 的 向 量 ， 例如 f <- 3、g <- "US" 和 h <- TRUE。 它 们 用 于 保存 
量 








通过 在 方 括 号 中 给 定 元 素 所 处 位 置 的 数值 , 我 们 可 以 访问 向 量 中 的 元 素 。 例如 , a[c (2, 4)] 
用 于 访问 向 量 a 中 的 第 二 个 和 第 四 个 元 素 。 更 多 示例 如 下 : 








Sa O(n jy Dy Wa i) 

> a[3] 

El a 

SG(Ls 3 5) 

[i le i 

3 G26] 

EL he a 

最 后 一 个 语句 中 使 用 的 冒号 用 于 生成 一 个 数值 序列 。 例 如 ，a <- c (2:6) 等 价 于 a <- c(2， 
汉人 
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2.2.2 ”和 矩阵 


撼 阵 是 一 个 二 维 数组 ， 只 是 每 个 元 素 都 拥有 相同 的 模式 〈 数 值 型 、 字 符 型 或 逻辑 型 )。 可 通 
函数 matrix( ) 创建 德 阵 。 一 般 使 用 格式 为 : 


myymatrix <- matrix(vector, nrow=number_of rows, ncol=number_of_columns, 
byrow=logical_value, dimnames=1]ist!( 
char_vector rownames, char_vector colnames)) 


其 中 vector 包 含 了 矩阵 的 元 素 ，nrow 和 ncol 用 以 指定 行 和 列 的 维 数 ，gqimnames 包 含 了 可 选 
的 、 以 字符 型 向 量 表示 的 行 名 和 列 名 。 选 项 byrow 则 表明 矩阵 应 当 按 行 填充 ( byrow=TRUE ) 
还 是 按 列 填充 ( byrow=FALSE )， 默 认 情 况 下 按 列 填充 。 代 码 清单 2-1 中 的 代码 演示 了 matrix 
函数 的 用 法 。 


代码 清单 2-1 创建 矩阵 


>Yy <- matrix(1:20, nrow=5, ncol=4) 
So 0 创建 一 个 5x4 的 和 矩阵 



































[,1] [,2] [,3] [,4] 
[于 1 6 11 16 
| 2 7 12 A 
bei 3 8 13 18 
[4,] 4 9 14 19 
[Ss 3 10 15 20 
> cells <- C(1,26,24,68) 
> rnames es TRL "RZ 
> cnames (EL C2 


> mymatrix <- matrix(cells, nrow=2, ncol=2, byrow=TRUE, 有 , 按 行 填 充 的 2x2 和 矩阵 
dimnames=list (rnames, cnames)) 

> mymatrix 

Cl*C2 

R26 

R2 24 68 

> mymatrix <- matrix(cells, nrow=2, ncol=2, byrow=FALSE, 按 列 填充 的 2x2 和 矩阵 
dimnames=list (rnames, cnames)) 有 局 

> mymatrix 


Cl C2 
R1 1 24 
R2 26 68 


我 们 首先 创建 了 一 个 5x4 的 矩阵 @, 接着 创建 了 一 个 2x2 的 含 列 名 标签 的 矩阵 , 并 按 行进 行 填 
充 @， 最 后 创建 了 一 个 2x2 的 矩阵 并 按 列 进行 了 填充 合 。 

我 们 可 以 使 用 下 标 和 方 括号 来 选择 甜 阵 中 的 行 、 列 或 元 素 。x[i, ] 指 矩阵 x 中 的 第 ; 行 , x[ 
上 第 7 列 ，x[i，j] 指 第 ; 行 第 i 个 元 素 。 选 择 多 行 或 多 列 时 ， 下 标 : 和 /可 为 煞 信 再 向 量 ， 0 
单 2-2 所 示 。 


代码 清单 2-2 和 矩阵 下 标的 使 用 


> x <- matrix(1:10, nrow=2) 




















> 
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[1, 时 3 5 7 9 
[2, 2 4 6 8 10 
[273] 
EL 6 610 
> 次 [ 这] 
[1] 3 4 
S30 ELd] 
[1] 7 
| 
[Ba le A) 














首先 , 我 们 创建 了 一 个 内 容 为 数字 1 到 10 的 2x5 和 矩阵 。 默 认 情 况 下 ， 和 矩阵 按 列 填充 。 然 后 ,我 
们 分 别 选择 了 第 二 行 和 第 二 列 的 元 素 。 接 着 ,又 选择 了 第 一 行 第 四 列 的 元 素 。 最 后 选择 了 位 于 第 
一 行 第 四 、 第 五 列 的 元 素 。 

和 矩阵 都 是 二 维 的 ， 和 向 量 类 似 ， 和 矩阵 中 也 仅 能 包含 一 种 数据 类 型 。 当 维度 超过 2 时 ， 不 妨 使 
用 数组 〈2.2.3 节 )。 当 有 多 种 模式 的 数据 时 ， 你 们 可 以 使 用 数据 框 〈2.2.4 节 )。 














2.2.3 数组 
数组 ( array ) 与 矩阵 类 似 ,但 是 维度 可 以 大 于 2。 数 组 可 通过 array 函 数 创建 ， 形 式 如 下 : 


myarray <- array (vector, dimensions, dimnames) 
其 中 vectozr 包 含 了 数组 中 的 数据 , aimensions 是 一 个 数值 型 向 量 , 给 出 了 各 个 维度 下 标的 最 大 
值 ， 而 dimnames 是 可 选 的 、 各 维度 名 称 标签 的 列表 。 代码 清单 2-3 给 出 了 一 个 创建 三 维 (2x3x4 ) 
数值 型 数组 的 示例 。 


代码 清单 2-3 ”创建 一 个 数组 
































> diml <- c("Al", "A2") 
> in < E(BLY "B22 .B33") 
Sle (OB Ey 
> Z <- array (1:24, c(2, 3, 4), dimnames=list (diml, dim2, dim3)) 
> Z 
GE 
Bl B2 B3 


Al 13 15 17 
A2 14 16 18 


B1 B2 B3 
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AL “L922.3 
A2 20 22 24 


如 你 所 见 ， 数 组 是 矩阵 的 一 个 自然 推广 。 它 们 在 编写 新 的 统计 方法 时 可 能 很 有 用 。 像 矩阵 一 
样 ， 数 组 中 的 数据 也 只 能 拥有 一 种 模式 。 从 数组 中 选取 元 素 的 方式 与 矩阵 相同 。 上 例 中 ， 元 素 
z[1,2,3] 为 15。 

















2.2.4 数据 框 


由 于 不 同 的 列 可 以 包含 不 同 模式 ( 数值 型 、 字 符 型 等 ) 的 数据 ,数据 框 的 概念 较 矩 阵 来 说 更 
为 一 般 。 它 与 你 通常 在 SAS 、SPSS 和 Stata 中 看 到 的 数据 集 类 似 。 数 据 框 将 是 你 在 R 中 最 党 处 理 的 
数据 结构 。 

表 2-1 所 示 的 病例 数据 集 包 含 了 数值 型 和 字符 型 数据 。 由 于 数据 有 多 种 模式 ， 无 法 将 此 数据 
集 放 入 一 个 和 矩阵。 在 这 种 情况 下 ， 使 用 数据 框 是 最 佳 选择 。 

数据 框 可 通过 函数 aata.frame () 创 建 : 

mydata <- data.frame (col1, col2, col3,...) 
其 中 的 列 向 量 co711、co12、co13 等 可 为 任何 类 型 ( 如 字符 型 、 数 值 型 或 逻辑 型 )。 每 一 列 的 名 
称 可 由 函数 names 指 定 。 代 码 清 单 2-4 清 晰 地 展示 了 相应 用 法 。 


代码 清单 2-4 ”创建 一 个 数据 框 
> patientID <- c(1, 2, 3, 4) 
ge <=,C(25, 34, 28; 52) 
>"diabetes <= 这 人 (YET 人 Type2" "TypelLT, “Typel™) 
> status <- c("Poor", "Improved", "Excellent", "Poor") 
> patientdata <- data.frame (patientID, age, diabetes, status) 
> patientdata 





















































patientID age diabetes status 
二 J Typel Poor 
2 区 .1 3 省 Type2 Improved 
3 3 28 Typel Excellent 
4 本 1 52 Typel POGr 





每 一 列 数据 的 模式 必须 唯一 , 不 过 你 却 可 以 将 多 个 模式 的 不 同 列 放 到 一 起 组 成 数据 框 。 由 于 
数据 框 与 分 析 人 员 通 常设 想 的 数据 集 的 形态 较为 接近 , 我 们 在 讨论 数据 框 时 将 交替 使 用 术语 列 和 
变 量 [2 

选取 数据 框 中 元 素 的 方式 有 若干 种 。 你 可 以 使 用 前 述 〈 如 和 矩阵 中 的 ) 下 标记 号 ， 亦 可 直接 指 
定 列 名 。 代 码 清单 2-5 使 用 之 前 创建 的 patientqata 数 据 框 演示 了 这 些 方式 。 


代码 清单 2-5 ”选取 数据 框 中 的 元 素 
> patientdata[l1:2] 
patientID age 
业 让 25 
2 福 1 吕 簿 
3 3: 728 
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4 4 52 

> patientdatalc("diabetes", 
diabetes status 

1 Typel Poor 

2 Type2 Improved 

3 Typel Excellent 

4 Typel Poor 


> patientdatas$age 
EL 25 052 











如 


> 


> table(patientdatas$sdiabetes, 


Excellent Improved Poor 


Typel 1 0 
Type2 0 外 





在 每 个 变量 名 前 都 键入 一 次 patientdata$ 可 能 会 让 人 生 厌 ， 所 以 不 妨 走 一 些 损 


第 三 个 例子 中 的 记号 s 是 新 出 现 的 @。 它 被 用 来 选取 一 个 给 定数 据 机 
如 果 你 想 生 成 糖尿 病 类 型 变量 diabetes 和 病情 变量 status 的 列 联 表 ， 使 用 以 下 代码 即 可 : 


patientdatasstatus) 


2 
0 


"status")] 


表示 patientdata 数 据 
框 中 的 变量 age 





合 使 用 函数 attach () 和 aqetach () 或 单独 使 用 函数 with () 来 简化 代码 。 


1. attach()、detach() 和 with() 


E 中 的 某 个 特定 变量 。 例 





E 径 。 可 以 联 


函数 attach () 可 将 数据 框 添加 到 R 的 搜索 路 径 中 。R 在 遇 到 一 个 变量 名 以 后 , 将 检查 搜索 路 
径 中 的 数据 框 ,以 第 1 章 中 的 mtcars 数 据 框 为 例 ,可 以 使 用 以 下 代码 获取 每 加 仑 行驶 英里 数 ( mpg ) 
变量 的 描述 性 统计 量 ， 并 分 别 绘制 此 变量 与 发 动机 排 量 (aisp ) 和 车 身 重量 (wt ) 的 散 点 图 : 








summary (mtcarssmpg) 
plot (mtcarss$smpg, mtcarss$disp) 
plot (mtcarssmpg, mtcarsswt) 


以 上 代码 也 可 写成 : 


attach (mtcars) 
summary (mpg) 
plot (mpg, disp) 
plot (mpg, wt) 

detach (mtcars) 


























函数 Getach () 将 数据 框 从 搜索 路 径 中 移 除 。 值得 注意 的 是 , detach () 并 不 会 对 数据 框 本 身 
做 任何 处 理 。 这 句 是 可 以 省 略 的 , 但 其 实 它 应 当 被 例 行 地 放 入 代码 中 ， 因 为 这 是 一 个 好 的 编程 习 
惯 。( 接 下 来 的 儿童 中 ,为 了 保持 代码 片段 的 简约 和 简短 ， 我 可 能 会 不 时 地 忽略 这 条 良 训 。 ) 


























当 名 称 相同 的 对 象 不 止 一 个 时 ， 这 种 方法 的 局 限 性 就 很 明显 了 。 

> MBG <- C(t25, 36; 二 7) 

> attach (mtcars) 

The following object(s) are masked by_ '.GlobalEnv': mpg 


> plot (mpg, wt) 

Erior Lil XYy COOrds(xy 
'x' and 'y' lengths differ 

> mpg 

[1] 5 36 7 


xlabel, 


ylabel, 1o0og) : 


和 参 虑 以 下 代码 : 
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这 里 ,在 数据 框 mtcars 被 绑 定 (attach ) 之 前 ,你 们 的 环境 中 已 经 有 了 一 个 名 为 mpg 的 对 象 。 
在 这 种 情况 下 ,原始 对 象 将 取得 优先 权 ， 这 与 你 们 想 要 的 结果 有 所 出 入 。 由 于 mpg 中 有 3 个 元 素 
而 disp 中 有 32 个 元 素 ， 故 plot 语 句 出 错 。 函 数 attach () 和 daetach () 最 好 在 你 分 析 一 个 单独 的 
数据 框 ， 并且 不 太 可 能 有 多 个 同名 对 象 时 使 用 。 任 何 情况 下 ,都 要 当心 那些 告知 某 个 对 象 已 被 屏 
蔽 (masked ) 的 警告 。 
除 此 之 外 ， 另 一 种 方式 是 使 用 函数 with() 。 可 以 这 样 重 写 上 例 ; 
with(mtcars, { 
print (summary (mpg)) 
plot (mpg, disp) 


plot (mpg, wt) 
}) 


在 这 种 情况 下 ， 花 括号 {} 之 间 的 语句 都 针对 数据 框 mt cars 执 行 ， 这 样 就 无 需 担 心 名称 冲 突 
了 。 如 果 仅 有 一 条 语句 ( 例如 summary (mpg) )， 那 么 花 括号 {} 可 以 省 略 。 
函数 with () 的 局 限 性 在 于 ， 赋 值 仪 在 此 函数 的 括号 内 生效 。 考 虑 以 下 代码 : 














> with(mtcars, { 
stats <- summary (mpg) 


stats 

} 

Min. lst Qu. Median Mean 3rd Qu. Max. 

10.40 15.43 19.20 20.09 22.80 33.90 
> stats 


Error: object 'stats' not found 
如 果 你 需要 创建 在 with () 结构 以 外 存在 的 对 象 , 使 用 特殊 赋值 符 <<- 蔡 代 标 准 赋值 符 ( <- ) 
即 可 ， 它 可 将 对 象 保存 到 with () 之 外 的 全 局 环境 中 。 这 一 点 可 通过 以 下 代码 前 明 : 








> with(mtcars, { 
nokeepstats <- summary (mpg) 
keepstats <<- summary (mpg) 
}) 
> nokeepstats 
Error: object 'nokeepstats' not found 
> keepstats 
Min. lst Qu. Median Mean 3rd Qu. Max. 
10.40 15.43 E920 3009 22.80 337590 


相对 于 attach() ， 多 数 的 R 书 籍 更 推荐 使 用 with () 。 个 人 认为 从 根本 上 说 ， 选 择 哪 一 个 是 
自己 的 偏好 问题 , 并 且 应 当 根 据 你 的 目的 和 对 于 这 两 个 函数 含义 的 理解 而 定 。 本 书 中 你 们 会 交替 
使 用 这 两 个 函数 。 

2. 实例 标识 符 

在 病例 数据 中 ,病人 编号 (patientID) 用 于 区 分 数据 集中 不 同 的 个 体 。 在 R 中 ， 实 例 标 识 
符 (case identifier ) 可 通过 数据 框 操作 也 数 中 的 rowname 选 项 指定 。 例 如 ， 语句 : 






































patientdata <- data.frame (patientID, age, diabetes, 
status, row.names=patientID) 
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将 patientID 指 定 为 R 中 标记 各 类 打印 输出 和 图 形 中 实例 名 称 所 用 的 变量 。 
2.2.5 ”因子 


如 你 所 见 ， 变 量 可 归结 为 名 义 型 、 有 序 型 或 连续 型 变量 。 名 义 型 变量 是 没有 顺序 之 分 的 类 别 
变量 。 糖尿 病 类 型 Diabetes (Typel、Type2 ) 是 名 义 型 变量 的 一 例 。 即 使 在 数据 中 Typel 编 码 
为 1 而 Trype2 编 码 为 2， 这 也 并 不 意味 着 二 者 是 有 序 的 。 有 序 型 变量 表示 一 种 顺序 关系 ， 而 非 数量 
关系 。 病 情 status (poor、improved、excellent ) 是 顺序 型 变量 的 一 个 上 佳 示 例 。 我 们 明 
白 ， 病 情 为 poor ( 较 差 ) 病人 的 状态 不 如 improved ( 病情 好 转 ) 的 病人 ， 但 并 不 知道 相差 多 少 。 
连续 型 变量 可 以 呈现 为 某 个 范围 内 的 任意 值 ， 并 同时 表示 了 顺序 和 数量 。 年 龄 age 就 是 一 个 连续 
型 变量 ， 它 能 够 表示 像 14.5 或 22.8 这 样 的 值 以 及 其 间 的 其 他 任意 值 。 很 清楚 ，15 岁 的 人 比 14 岁 的 
人 年 长 一 岁 。 

类 别 ( 名义 型 ) 变量 和 有 序 类 别 (有 序 型 ) 变量 在 R 中 称 为 因子 〈factor )。 因 子 在 R 中 非 
销 重 要 ， 因 为 它 决定 了 数据 的 分 析 方 式 以 及 如 何 进 行 视 觉 呈 现 。 你 将 在 本 书 中 通 篇 看 到 这 样 
的 例子 。 

函数 factor () 以 一 个 整数 向 量 的 形式 存储 类 别 值 ， 整 数 的 取 值 范围 是 [1... 和 (其 中 是 名 义 
型 变量 中 唯一 值 的 个 数 )， 同 时 一 个 由 字符 串 ( 原始 值 ) 组 成 的 内 部 向 量 将 映射 到 这 些 整 数 上 。 

举例 来 说 ,假设 有 问 量 : 

diabetes <- c("Typel", "Type2", "Typel", "Typel") 


语句 diabetes <- factor (diabetes) 将 此 向 量 存 储 为 (1, 2, 1, 1)， 并 在 内 部 将 其 关联 为 
1=Typel1 和 2=Type2( 具体 赋值 根据 字母 顺序 而 定 ),。 针对 向 量 aiabetes 进 行 的 任何 分 析 都 会 将 其 
作为 名 义 型 变量 对 待 ， 并 自动 选择 适合 这 一 测量 尺度 "的 统计 方法 。 

要 表示 有 序 型 变量 ， 需 要 为 函 数 factor () 指定 参数 ordered=TRUE。 给 定向 量 : 





















































































































































status <- c("Poor", "Improved", "Excellent", "Poor") 


语句 status <- factor (status，ordered=TRUE) 会 将 向 量 编 码 为 (3, 2, 1, 3)， 并 在 内 部 
将 这 些 值 关联 为 1=Excellent、2=Improved 以 及 3=Poor。 男 外 ， 针 对 此 向 量 进行 的 任何 分 析 都 会 将 
其 作为 有 序 型 变量 对 待 ， 并 自动 选择 合适 的 统计 方法 。 
对 于 字符 型 向 量 ， 因 子 的 水 平 默认 依 字母 顺序 创建 。 这 对 于 因子 status 是 有 意义 的 ， 因 为 
“Excellent”“Improved”“Poor” 的 排序 方式 恰好 与 逻辑 顺序 相 一 致 。 如 果 “ 了 Poor” 被 编码 为 
“Ailing”, 会 有 问题 , 因为 顺序 将 为 “Ailing”“Excellent”“Improved”。 如果 理想 中 的 顺序 是 “Poor” 
“Improved”“Excellent”, 则 会 出 现 类 似 的 问题 。 按 默认 的 字母 顺序 排序 的 因子 很 少 能 够 让 人 满意 。 
你 可 以 通过 指定 levels 选 项 来 覆盖 默认 排序 。 例 如 : 


status <- factor(status, order=TRUE, 
levels=c("Poor", "Improved", "Excellent")) 
















































































Qz 这 里 的 测量 尺度 是 指定 类 尺度 、 定 序 尺 度 、 定 距 尺 度 、 定 比 尺度 中 的 定 类 尺度 。 一 一 译 者 注 
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各 水 平 的 赋值 将 为 1=Poor、2=Improved、3=Excellent。 请 保证 指定 的 水 平 与 数据 中 的 真实 值 
相 匹 配 ， 因 为 任何 在 数据 中 出 现 而 未 在 参数 中 列举 的 数据 都 将 被 设 为 缺失 值 。 

数值 型 变量 可 以 用 levels 和 1abels 参 数 来 编码 成 因子 。 如 果 男 性 被 编码 成 1， 女 性 被 编码 
成 2， 则 以 下 语句 : 

sex <- factor(sex, levels=c(1, 2), labels=c("Male", "Female")) 
把 变量 转换 成 一 个 无 序 因子 。 注 意 到 标签 的 顺序 必须 和 水 平 相 一 致 。 在 这 个 例子 中 , 性 别 将 被 当 
成 类 别 型 变量 ， 标 签 “Male” 和 “Female” 将 替代 1 和 2 在 结果 中 输出 ， 而 且 所 有 不 是 1 或 2 的 性 别 
变量 将 被 设 为 缺失 值 。 

代码 清单 2-6 演 示 了 普通 因子 和 有 序 因子 的 不 同 是 如 何 影 响 数据 分 析 的 。 
代码 清单 2-6 ”因子 的 使 用 


patientID <- c(1，2，3，4) 


















































V 


可 人 52 以 向 量 形式 输入 数据 
> diaDetes < ("TYBElL™, TIYDe2" "TYBDeL™, ~ MyDel™) 

> status <- c("Poor", "Improved", "Excellent", "Poor") 

> diabetes <- factor(diabetes) 

> status <- factor(status, order=TRUE) 

> patientdata <- data.frame (patientID, age, diabetes, status) 

> str(patientdata) 

‘data.frame’: 4 obs. of 4 variables: 

$ patientID: num 1 234 显示 对 象 的 结构 
$ age -i 52 

$ diabetes : Factor w/ 2 levels "Typel","Type2": 1 211 

$ status : Ord.factor w/ 3 levels "Excellent"<"Improved"<..: 3 213 
> summary (patientdata) 

patientID age diabetes status 

Min. :1.00 Min. T25000 Typel:3 Excellent:1 显示 对 象 的 
lst 人 和 人 本 人 Type2:1 Improved :1 统计 概要 
Median :2.50 Median :31.00 Poor :2 

Mean 22350 Mean :34.75 

3 Ou 25 3 OU. 38..50 

Max. A400 Max. 52%00 


首先 ,以 向 量 的 形式 输入 数据 @。 然后, 将 aiabetes 和 status 分 别 指定 为 一 个 普通 因子 和 
一 个 有 序 型 因子 。 最 后 ,将 数据 合并 为 一 个 数据 框 。 函 数 str (opject) 可 提供 R 中 某 个 对 象 (本 
例 中 为 数据 框 ) 的 信息 @@。 它 清楚 地 显示 aiabetes 是 一 个 因子 ， 而 status 是 一 个 有 序 型 因子 ， 
以 及 此 数据 框 在 内 部 是 如 何 进 行 编码 的 。 注 意 , 函数 summary () 会 区 别 对 待 各 个 变量 全 。 它 显示 
了 连续 型 变量 age 的 最 小 值 、 最 大 值 、 均 值 和 各 四 分 位 数 ， 并 显示 了 类 别 型 变量 aiabetes 和 
status (各 水 平 ) 的 频数 值 。 


2.2.6 ”列表 


列表 (list ) 是 R 的 数据 类 型 中 最 为 复杂 的 一 种 。 一 般 来 说 ， 列 表 就 是 一 些 对 象 ( 或 成 分 ， 
component ) 的 有 序 集合 。 列 表 允 许 你 整合 若干 ( 可 能 无 关 的 ) 对 象 到 单个 对 象 名 下 。 例 如 ， 
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某 个 列表 中 可 能 是 若干 向 量 、 和 矩阵 、 数 据 框 ， 甚 至 其 他 列表 的 组 合 。 可 以 使 用 函数 1ist () 创 
建 列表 : 


mylist <- list(object1, object2, ...) 
其 中 的 对 象 可 以 是 目前 为 止 讲 到 的 任何 结构 。 你 还 可 以 为 列表 中 的 对 象 命名 : 2 
mylist <- list (namel=object1, name2=object2, ...) 


代码 清单 2-7 展 示 了 一 个 例子 。 
代码 清单 2-7 创建 一 个 列表 


> g <- "My First List" 

> Rm ON(2D. ,2.65 L839) 

So < meatrix(l:10,. nrows=5) 

> k <- c("one", "two", "three") ue 创建 列表 
> mylist <- list(title=g, ages=h, j, k) 

> mylist 

$title “输出 整个 列表 


Eh -CM iESE TSEY 











$ages 
1] 257.26...18.39 


3]] 








1] "one" "two" "three" 东 i 
输出 第 二 个 成 

> mylist[[2]] 3 | 
二 ,2.5.2.6: .48 39 
> mylist[["ages"]] 
[3] -5 6 (18739 

本 例 创建 了 一 个 列表 ， 其 中 有 四 个 成 分 : 一 个 字符 串 、 一 个 数值 型 向 量 、 一 个 矩阵 以 及 一 个 
字符 型 向 量 。 可 以 组 合 任意 多 的 对 象 ， 并 将 它们 保存 为 一 个 列表 。 

你 也 可 以 通过 在 双重 方 括号 中 指明 代表 某 个 成 分 的 数字 或 名 称 来 访问 列表 中 的 元 素 。 此 例 
中 ，mylist[[2]] 和 mylist[["ages"]] 均 指 那 个 含有 四 个 元 素 的 向 量 。 对 于 命名 成 分 ， 
mylistsages 也 可 以 正常 运行 。 人 列表 成 为 了 R 中 的 重要 数据 结构 。 首 先 ， 列表 允 
许 以 一 种 简单 的 方式 组 织 和 重新 调用 不 相干 的 信息 。 其 次 ， 许 多 R 函 数 的 运行 结果 都 是 以 列表 的 
形式 返回 的 。 需 要 取出 其 中 哪些 成 分 由 分 析 人 员 决 定 。 你 将 在 后 续 各 章 发 现 许 多 返回 列表 的 函数 
示例 。 
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提醒 程序 员 注 意 的 一 些 事项 
经 验 丰富 的 程序 员 通 常会 发 现 R 语 言 的 某 些 方面 不 太 寻 常 。 以 下 是 这 门 语 言 中 你 需要 了 解 
的 一 些 特 性 。 

口 对 象 名 称 中 的 句点 (. ) 没有 特殊 意义 ， 但 美元 符号 ($ ) 却 有 着 和 其 他 语言 中 的 句点 
类 似 的 含义 ， 即 指定 一 个 数据 框 或 列表 中 的 菜 些 部 分 。 例 如 ，AS$x 是 指数 据 框 A 中 的 变 
量 x。 

口 R 不 提供 多 行 注释 或 块 注释 功能 。 你 必须 以 # 作 为 多 行 注释 每 行 的 开始 。 出 于 调试 目的 ， 
你 也 可 以 把 想 让 解释 器 忽略 的 代码 放 到 语句 if(FALSE){.. .1} 中 。 将 FALSE 改 为 TRUE 
即 允 许 这 块 代码 执行 。 

口 将 一 个 值 赋 给 茶 个 向 量 、 和 给 阵 、 数 组 或 列表 中 一 个 不 存在 的 元 素 时 ，R 将 自动 扩展 这 个 
数据 结构 以 容纳 新 值 。 举 例 来 说 ， 考 虑 以 下 代码 : 


人 

Sl 了 本 本 二 六 

> 

轴 可 靖 于 SG 二 二 人 NA 二 和 六 三 NE 


通过 赋值 ， 向 量 x 由 三 个 元 素 扩 展 到 了 七 个 元 素 。x <- xf[1:3] 会 重新 将 其 缩减 回 三 个 
区 六 
口 R 中 没有 标量 。 标 量 以 单元 素 向 量 的 形式 出 现 。 
口 R 中 的 下 标 不 从 0 开始 ， 而 从 1 开始 。 在 上 述 向 量 中 ,，x[1] 的 值 为 8。 
口 变量 无 法 被 声明 。 它 们 在 首次 被 赋值 时 生成 。 

要 了 解 更 多 ,参阅 John Cook 的 优秀 博文 “R programming for those coming from other 
languages” (www.johndcook.com/Rlanguagefor programmers.html )。 

那些 正在 寻找 编码 风格 指南 的 程序 员 不 妨 看 看 “Google’s R Style Guide” ( http://google- 
styleguide.googlecode.com/svn/trunk/google-r-style.html )。 














2.3 数据 的 输入 


现在 你 已 经 掌握 了 各 种 数据 结构 ， 可 以 放 一 些 数据 进去 了 。 作 为 一 名 数据 分 析 人 员 ， 你 通常 
会 面 对 来 自 多 种 数据 源 和 数据 格式 的 数据 ,你 的 任务 是 将 这 些 数据 导入 你 的 工具 , 分析 数据 ,并 
汇报 分 析 结 果 。R 提 供 了 适用 范围 广泛 的 数据 导入 工具 。 向 R 中 导入 数据 的 权威 指南 参见 可 在 
http://cran.r-project.org/doc/manuals/R-data.pdf 下 载 的 R Data Import/Expor! 手 册 。 

如 图 2-2 所 示 ，R 可 从 键盘 、 文 本 文件 、Microsoft Excel 和 Access、 流 行 的 统计 软件 、 特 殊 格 
式 的 文件 、 多 种 关系 型 数据 库 管 理 系 统 、 专 业 数 据 库 、 网 站 和 在 线 服务 中 导入 数据 。 由 于 我 们 无 
从 得 知 你 的 数据 将 来 自 何 处 ， 故 会 在 下 文 论 及 各 种 数据 源 。 读 者 按 需 参阅 即 可 。 















































@) 搜索 “来 自 Google 的 R 语 言 编码 风格 指南 ”可 以 找到 这 份 文档 的 中 文 版 。 一 一 译 者 注 
@) 此 手册 对 应 的 中 译名 为 《R 数 据 的 导入 和 导出 》 可 在 网 上 找到 。 一 一 译 者 注 
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统计 软件 
SAS SPSS Stata 














键盘 











不 文件 ASCI ~ 一 Excel 
2 XML 一 一 +— netCFD 此 他 
据 一 之 


Web 抓 取 数 2 ~ HDF5 
ek 


SQL MySQL Oracle Access 
数据 库 管 理 系 统 


图 2-2 ”可 供 R 导 入 的 数据 源 


















































2.3.1 使 用 键盘 输入 数据 


也 许 输入 数据 最 简单 的 方式 就 是 使 用 键盘 了 。 有 两 种 常见 的 方式 : 用 R 内 置 的 文本 编辑 顺和 
直接 在 代码 中 能 入 数据 。 我 们 首先 考虑 文本 编辑 器 。 

R 中 的 函数 edit () 会 自动 调用 一 个 允许 手动 输入 数据 的 文本 编辑 器 。 具 体 步 又 如 下 : 

(1) 创建 一 个 空 数据 框 〈 或 矩阵 )， 其 中 变量 名 和 变量 的 模式 需 与 理想 中 的 最 终 数据 集 一 致 ; 

(2) 针对 这 个 数据 对 象 调用 文本 编辑 器 ， 输 入 你 的 数据 ， 并 将 结果 保存 回 此 数据 对 象 中 。 

在 下 例 中 ,你 将 创建 一 个 名 为 mydata 的 数据 框 ， 它 含有 三 个 变量 : age (数值 型 )、 genqaer 
(字符 型 ) 和 weight (数值 型 )。 然 后 你 将 调用 文本 编辑 器 ， 键 和 人 数据， 最 后 保存 结果 。 

mydata <- data.frame (age=numeric (0), 


gender=character (0), weight=numeric(0)) 
mydata <- edit (mydata) 


类 似 于 age=numeric (0) 的 赋值 语句 将 创建 一 个 指定 模式 但 不 含 实际 数据 的 变量 。 注意 , 编 
辑 的 结果 需要 赋值 回 对 象 本 身 。 也 数 edit () 事实 上 是 在 对 象 的 一 个 副本 上 进行 操作 的 。 如 果 你 
不 将 其 赋值 到 一 个 目标 ， 你 的 所 有 修改 将 会 全 部 丢失 ! 

在 Windows 上 调用 函数 eqit () 的 结果 如 图 2-3 所 示 。 如 图 2-3 所 示 , 我 已 经 自主 添加 了 一 些 数 
据 。 单 击 列 的 标题 ， 你 就 可 以 用 编辑 器 修改 变量 名 和 变量 类 型 ( 数值 型 、 字 符 型 )。 你 还 可 以 通 
过 单 击 未 使 用 列 的 标题 来 添加 新 的 变量 。 编辑 器 关闭 后 ,结果 会 保存 到 之 前 赋值 的 对 象 中 ( 本 例 
中 为 nydata )。 再 次 调用 mydata <- edit (mydata) ， 就 能 够 编辑 已 经 输入 的 数据 并 添加 新 的 
数据 。 语 句 mydata <- edit (mydata) 的 一 种 简捷 的 等 价 写法 是 fix (mydata)。 
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图 2-3 通过 Windows 上 内 建 的 编辑 器 输入 数据 
此 外 ， 你 可 以 直接 在 你 的 程序 中 能 入 数据 集 。 比 如 说 ， 参 见 以 下 代码 : 


mydatatxt <- " 
age gender weight 
25 m 166 

3:0. .fT ES 

18 f 120 











mydata <- read.table (header=TRUE, text=mydatatxt) 

以 上 代码 创建 了 和 之 前 用 edit () 函数 所 创建 的 一 样 的 数据 框 。 一 个 字符 型 变量 被 创建 于 存 
储 原始 数据 ， 然 后 read .table () 函数 被 用 于 处理 字符 串 并 返回 数据 框 。 也 数 read .table() 将 
在 下 一 广 描 述 。 

键盘 输入 数据 的 方式 在 你 在 人 处理 小 数据 集 的 时 候 很 有 效 。 对 于 较 大 的 数据 集 , 你 所 期 望 的 也 
许 是 我 们 接 下 来 要 介绍 的 方式 ， 从 现 有 的 文本 文件 、Excel 电 子 表格 、 统 计 软 件 或 数据 库 中 导入 
数据 。 


2.3.2 ”从 融 分 隔 符 的 文本 文件 导入 数据 
你 可 以 使 用 read.table() 从 带 分 隔 符 的 文本 文件 中 导入 数据 。 此 函数 可 读 入 一 个 表格 格式 
的 文件 并 将 其 保存 为 一 个 数据 框 。 表 格 的 每 一 行 分 别 出 现 在 文件 中 每 一 行 。 其 语法 如 下 : 
mydataframe <- read.table(file, options) 


其 中 ，fi1le 是 一 个 带 分 隔 符 的 ASCII 文 本 文件 ，options 是 控制 如 何 处 理 数据 的 选项 。 表 2-2 列 
出 了 和 常见 的 选项 。 












































2.3 ”数据 的 输入 33 





表 2-2 ”函数 read.table() 的 选项 











选 项 描 述 
header 一 个 表示 文件 是 否 在 第 一 行 包含 了 变量 名 的 逻辑 型 变量 
2 分 开 数 据 值 的 分 隔 符 。 默 认 是 sep=""， 这 表示 了 一 个 或 多 个 空格 、 制 表 符 、 换 行 或 回 车 。 使 



































用 sep="," 来 读 取 用 逗号 来 分 隔行 内 数据 的 文件 ， 使 用 sep="\t" 来 读 取 使 用 制 表 符 来 分 割 
行内 数据 的 文件 



































OW omnes 个 用 于 指定 一 个 或 多 个 行 标记 符 的 可 选 参数 
col.names 如 果 数 据 文件 的 第 一 行 不 包括 变量 名 (header=FASLE ), 你 可 以 用 col .names 去 指定 一 个 包 





含 变 量 名 的 字符 向 量 。 如 果 hneader=FALSE 以 及 col .names 选项 被 省 略 了 , 变量 会 被 分 别 命 
名 为 V1、v2， 以 此 类 推 





















































na.strings 可 选 的 用 于 表示 缺失 值 的 字符 向 量 。 比 如 说 ，na.strings=c("-9"，"?") 把 -9 和 ? 值 在 读 
取 数 据 的 时 候 转 换 成 NA 

colClasses 可 选 的 分 配 到 每 一 列 的 类 向 量 。 比 如 说 , colClasses=c ("numeric", "numeric", "character", 
"NULL"， "numeric") 把 前 两 列 读 取 为 数值 型 变量 ， 把 第 三 列 读 取 为 字符 型 向 量 ， 跳 过 第 四 
列 ， 把 第 五 列 读 取 为 数值 型 向 量 。 如 果 数 据 有 多 余 五 列 ，colclasses 的 值 会 被 循环 。 当 你 






































在 读 取 大 型 文本 文件 的 时 候 ， 加 上 colclasses 选项 可 以 可 观 地 提升 处 理 的 速度 
quote 用 于 对 有 特殊 字符 的 字符 串 划 定 界限 的 自负 床 。 默 认 值 是 双 引 号 (" ) 或 单 引号 (') 
Skip 读 取 数 据 前 跳 过 的 行 的 数目 。 这 个 选项 在 跳 过 头 注释 的 时 候 比 较 有 用 

















stringsAsFactors 一 个 逻辑 变量 , 标记 处 字符 向 量 是 否 需 要 转化 成 因子 。 默 认 值 是 TRUE, 除非 它 被 colclases 
































所 履 盖 。 当 你 在 处 理 大 型 文本 文件 的 时 候 , 设置 成 stringsAsFactors=FALSE 可 以 提升 处 
理 速度 

text 一 个 指定 文字 进行 处 理 的 字符 串 。 如 果 text 被 设置 了 ，file 应 该 被 留 空 。2.3.1 节 给 出 了 一 
个 例子 








考虑 一 个 名 为 studentgrades.csv 的 文本 文件 , 它 包含 了 学 生 在 数学 、 科 学 、 和 社会 学 习 的 分 数 。 
文件 中 每 一 行 表示 一 个 学 生 , 第 一 行 包含 了 变量 名 , 用 逗号 分 隔 。 每 一 个 单独 的 行 都 包含 了 学 生 
的 信息 ， 它 们 也 是 用 逗号 进行 分 隔 的 。 文 件 的 前 几 行 如 下 : 

StudentID,First,Last,Math, Science, Social Studies 

011,Bob, Smith,90,80,67 

012,Jane,Weary,75,,80 


OLO Dean, "TioOrntet, FEL 0 ,50 
040,Mary, "O'Leary",90,95,92 


这 个 文件 可 以 用 以 下 语句 来 读 人 成 一 个 数据 框 : 


grades <- read.table("studentgrades.csv", header=TRUE, 
row.names="StudentID", sep=",") 


结果 如 下 : 


> grades 

















First Last Math Science Social.Studies 
1 Bob Smith 90 80 67 
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12 Jane Weary 加 NA 80 
10 Dan Thornton, III 65 75 70 
40 Mary O'Leary 90 95 92 
> str(grades) 
‘data.frame': 4 obs. of 5 variables: 
$ First : Factor w/ 4 levels "Bob","Dan","Jane", CE 业 交 辣 四 
$ Last : Factor w/ 4 levels "O'Leary","Smith", 5 
$ Math int; 90 T56590 
$ Science : int 80 NA 75 95 
$ Social.Studies: int 67 80 70 92 


列 studentID 现 在 是 行 名 ,不 再 有 标签 ， 
识别 为 缺失 值 。 我 不 得 不 在 Dan 的 姓 周围 用 引号 包围 住 ， 从 而 能 够 避免 Thornton 和 III 之 间 的 空格 。 
否则 ，R 会 在 那 一 行 读 出 七 个 值 而 不 是 六 个 值 。 我 也 在 OLeary 左 右 用 引号 包围 住 了 ， 


单 引号 


stringsAsFactors=FALS 
选项 去 对 每 一 列 都 指定 一 个 类 
用 以 下 代码 导入 同一 个 函数 ; 


得 到 


如 何 导入 数据 有 很 多 有 趣 的 要 点 。 变量 名 social studies 被 自动 地 根据 R 的 习惯 所 重 命名 。 
































也 失去 了 前 置 的 0。Jane 的 缺失 的 科学 








课 成 绩 被 正确 地 

















负载 R 会 把 


号 读 取 为 分 隔 符 〈 而 这 不 是 我 想 要 的 )。 最 后 ， 姓 和 名 都 被 转化 成 为 因子 。 




















grades <- read.tablel(" 


本 /基因 


默认 地 , read.table() 把 字符 变量 


E 对 所 有 的 字 


( 比如 说 ， 逻 辑 型 、 


studentgrades.csv" 








转化 为 因子 , 这 并 不 一 定 都 是 我 们 想 要 的 情况 。 比 如 说 ， 
很 少 情况 下 , 我 们 才 会 把 回答 者 的 评论 转化 成 为 因子 。 你 可 用 多 种 方法 去 掉 这 个 
符 变量 都 去 掉 这 个 和 


行为 。 加 上 选项 


行为 。 此 外 ， 你 可 以 用 colclasses 














数值 型 、 字 符 


,， header=TRUE, 


row.names="StudentID", sep=",", 
colCLlassessc("character"s character"y "character'" 
"numeric", "numeric", "numeric")) 

以 下 数据 框 : 
> grades 

First Last Math Science Social.Studies 
011 Bob Smith 90 80 67 
012 Jane Weary 15 NA 80 
010 Dan Thornton :TTT 65 70 
040 Mary O'Leary 90 95 92 
> str(grades) 
'data.frame': 4 obs. of 5 variables: 
$' FikSt chr "Bob" "Jane" "Dan" "Mary" 
$ Last chr "Smith" "Weary" "Thornton, III" 
$ Math num 90 75 65 90 
$ Science num 80 NA 75 95 
$ Social. tides: num 67 80 70 92 

行 名 保留 了 前 级 0， 


| 


型 或 因子 型 )。 


"O'Leary" 





而 且 First 和 Last 不 再 是 因子 。 此 外 ，grades 作 为 实数 而 不 是 整数 来 
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函数 read.table() 还 拥有 许多 微调 数据 导入 方式 的 追加 选项 。 更 多 详情 ， 请 参阅 


help(read.table)。 


用 连接 来 导入 数据 

本 章 中 的 许多 示例 都 是 从 用 户 计算 机 上 已 经 存在 的 文件 中 导入 数据 。R 也 提供 了 若干 种 通 
过 连接 ( connection ) 来 访问 数据 的 机 制 , 例 如 ,函数 file() .gzfile()、bzfile()、xzfile()、 
unz () 和 url () 可 作为 文件 名 参数 使 用 。 函 数 file() 允许 你 访问 文件 、 剪 贴 板 和 C 级 别 的 标准 
输入 。 郊 数 gzfile()、pbzfile()、xzfile() 和 unz() 允 许 你 读 取 压缩 文件 。 

函数 url1() 能够 让 你 通过 一 个 含有 http:/、ftp:/ 或 fle:/ 的 完整 URL 访 问 网 络 上 的 文件 ， 还 
可 以 为 HITP 和 FTP 连 接 指定 代理 。 为 了 方便 ，( 用 双 引 号 围 住 的 ) 完整 的 URL 也 经 常 直 接 用 来 
代替 文件 名 使 用 。 更 多 详情 ， 参 见 help(file)。 


2.3.3 ”导入 Excel 数据 


读 取 一 个 Exce] 文 件 的 最 好 方式 ， 就 是 在 Excel 中 将 其 导出 为 一 个 逗号 分 隔 文件 〈csv )， 并 使 
用 前 文 描述 的 方式 将 其 导入 R 中 。 此 外 ， 你 可 以 用 xlsx 包 直接 地 导 人 了 Excel 工作 表 。 请 确保 在 第 
一 次 使 用 它 之 前 先进 行 下 载 和 安装 。 你 也 需要 xlsxjars 和 rJava 包 ， 以 及 一 个 正常 工作 的 Java 
安装 ( http://java.com )。 

xlsx 包 可 以 用 来 对 Excel 97/2000/XP/2003/2007 文 件 进行 读 取 、 写 入 和 格式 转换 。 函 数 
read.xlsx() 导 人 一 个 工作 表 到 一 个 数据 框 中 。 最 简单 的 格式 是 read .xlsx(file, n)， 其 中 
file 是 Excel 工 作 竹 的 所 在 路 径 ，n 则 为 要 导入 的 工作 表 序 号 。 举 例 说 明 ， 在 Windows 上 ， 以 下 
代码 : 

library (xlsx) 


workbook <- "c:/myworkbook.xlsx" 
mydataframe <- read.xlsx(workbook, 1) 


从 位 于 C 盘 根 目录 的 工作 短 myworkbook.xlsx 中 导入 了 第 一 个 工作 表 ， 并 将 其 保存 为 一 个 数据 框 
mydataframe。 

函数 read.xlsx() 有 些 选项 可 以 允许 你 指定 工作 表 中 特定 的 行 ( rowIndex ) 和 列 
(colIndex )， 配 合 上 对 应 每 一 列 的 类 (colclasses )。 对 于 大 型 的 工作 短 (比如 说 ，100 000+ 
个 单元 格 ), 你 也 可 以 使 用 read .xlsx2 () 函数 。 这 个 函数 用 Java 来 运行 更 加 多 的 处 理 过 程 , 因此 
能 够 获得 可 观 的 质量 提升 。 请 查阅 help (read .xlsx) 获得 更 多 细节 。 

也 有 其 他 包 可 以 帮助 你 处 理 Excel 文 件 。 替 代 的 包 包 含 了 XLConnect 和 openxlsx 包 ，; 
XLConnect 依 赖 于 Java， 不 过 openxlsx 并 不 是 。 所 有 这 些 软 件 包 都 可 以 做 比 导 入 数据 更 加 多 的 
事情 一 一 它们 也 可 以 创建 和 操作 Excel 文 件 。 那 些 需 要 创建 R 和 Excel 之 间 的 接口 的 程序 员 应 该 要 
仔细 查看 这 些 软 件 包 中 的 一 个 或 多 个 。 





du 





























由 
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2.3.4 导入 XML 数据 


以 XML 格 式 编码 的 数据 正在 逐渐 增多 。 R 中 有 若干 用 于 处 理 XML 文 件 的 包 。 例如 ,由 Duncan 
Temple Lang 编 写 的 XML 包 人 允许 你 读 取 、 写 和 信和 操作 XML 文件 。XML 格 式 本 身 已 经 超出 了 本 书 的 
范围 。 对 使 用 R 存 取 XML 文档 感 兴趣 的 读者 可 以 参阅 www.omegahat.org/RSXML ， 从 中 可 以 找到 
若干 份 优秀 的 软件 包 文 档 。 


2.3.5 ”从 网 页 抓 取 数 据 


网 络 上 的 数据 ， 可 以 通过 所 谓 Web 数 据 抓 取 ( Webscraping ) 的 过 程 ， 或 对 应 用 程序 接口 
( application programming interface，API ) 的 使 用 来 获得 。 

一 般 地 说 ， 在 Web 数 据 抓 取 过 程 中 ， 用 户 从 互联 网 上 提取 般 入 在 网 页 中 的 信息 ， 并 将 其 保存 
为 R 中 的 数据 结构 以 做 进一步 的 分 析 。 比 如 说 , 一 个 网 页 上 的 文字 可 以 使 用 函数 reaqLines () 来 
下 载 到 一 个 R 的 字符 向 量 中 ， 然 后 使 用 如 grep () 和 gsub () 一 类 的 函数 处 理 它 。 对 于 结构 复杂 的 
网 页 ， 可 以 使 用 RCcurl 包 和 xML 包 来 提取 其 中 想 要 的 信息 。 更 多 信息 和 示例 ， 请 参考 网 站 
Programming with R ( www.programmingr.com ) 上 的 “Webscraping using readLines andRCurl” 一 文 。 

API 指 定 了 软件 组 件 如 何 互相 进行 交互 。 有 很 多 R 包 使 用 这 个 方法 来 从 网 上 资源 中 获取 数据 。 
这 些 资源 包括 了 生物 、 医 药 、 地 球 科学 、 物 理科 学 、 经 济 学 ， 以 及 商业 、 人 金融 、 文 学 、 销 售 、 新 
闻 和 运动 等 的 数据 源 。 

比如 说 ， 如 果 你 对 社交 媒体 感 兴趣 ， 可 以 用 twitter 来 获取 Twitter 数 据 ， 用 Rfacebook 来 
获取 Facebook 数 据 , 用 Rflickr 来 获取 Flicker 数 据 。 其 他 软件 包 人 允许 你 连接 上 如 Google、Amazon、 
Dropbox 、Salesforce 等 所 提供 的 广 受 欢迎 的 网 上 服务 。 可 以 查看 CRAN Task View 中 的 子 版 块 Web 
Technologies and Services ( https://cran.r-project.org/web/views/WebTechnologies.html ) 来 获得 一 个 
全 面 的 列表 ， 此 列表 列 出 了 能 帮助 你 获取 网 上 资源 的 各 种 R 包 。 










































































2.3.6 ”导入 SPSS 数据 


IBM SPSS 数 据 集 可 以 通过 foreign 包 中 的 函数 readq.spss () 导 入 到 R 中 ,也 可 以 使 用 Hmisc 
包 中 的 spss .get () 限 数 。 函 数 spss .get () 是 对 readq.spss () 的 一 个 封装 ， 它 可 以 为 你 自动 设 
置 后 者 的 许多 参数 ， 让 整个 转换 过 程 更 加 简单 一 致 ， 最 后 得 到 数据 分 析 人 员 所 期 望 的 结果 。 

首先 ， 下 载 并 安装 Hmisc 包 ( foreign 包 已 被 默认 安装 ): 

install.packages("Hmisc") 

然后 使 用 以 下 代码 导入 数据 : 


library (Hmisc) 
mydataframe <- spss.get ("mydata.sav", use.value.labels=TRUE) 


这 段 代 码 中 ，mydata.sav 是 要 导入 的 SPSS 数 据 文 件 ，use .value .1abels=TRUE 表 示 让 函数 
将 带 有 值 标 签 的 变量 导入 为 R 中 水 平 对 应 相同 的 因子 ，mydataframe 是 导入 后 的 R 数 据 框 。 
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2.3.7 导入 SAS 数据 


R 中 设计 了 若干 用 来 导入 SAS 数 据 集 的 函数 , 包括 foreign 包 中 的 reagd.ssd(), Hmisc 包 中 
的 sas .get ()， 以 及 sas7bdat 包 中 的 read.sas7bgdat () 。 如 果 你 安装 了 SAS，sas .get () 是 
一 个 好 的 选择 。 

比如 说 ,你 想 导 入 一 个 名 为 clients.sas7bdat 的 SAS 数 据 集 文件 , 它 位 于 一 台 Windows 机 器 上 的 
C:mydata 文 件 夹 中 ， 以 下 代码 导入 了 数据 ， 并 且 保 存 为 一 个 R 数 据 框 : 

library (Hmisc) 

datadir <- "C:/mydata" 


sasexe <- "C:/Program Files/SASHome/SASFoundation/9.4/sas.exe" 
mydata <- sas.get (libraryName=datadir, member="clients", sasprog=sasexe) 


libraryName 是 一 个 包含 了 SAS 数 据 集 的 文件 夹 ，member 是 数据 集 名 字 ( 去 除 掉 后 级 名 
sas7bdat )，sasprog 是 到 SAS 可 运行 程序 的 完整 路 径 。 有 很 多 可 用 的 选项 ; 查看 help (sas .get) 
获得 更 多 细节 。 

你 也 可 以 在 SAS 中 使 用 PRoc EXPORT 将 SAS 数 据 集 保存 为 一 个 逗号 分 隔 的 文本 文件 ， 并 使 用 
2.3.2 节 中 叙述 的 方法 将 导出 的 文件 读 取 到 R 中 。 下 面 是 一 个 示例 : 


SAS 程 序 : 



































libname datadir "C:\mydata"; 

proc export data=datadir.clients 
outfile="clients.csv" 
dbms=csv; 

run; 


RR 程序: 

mydata <- read.table("clients.csv", header=TRUE, sep=",") 

前 面 两 种 方法 要 求 你 安装 了 一 套 完整 的 可 运行 的 SAS 程 序 。 如 果 你 没有 连接 SAS 的 途径 ， 也 
数 read.sas7dbat () 也 许 是 一 个 好 的 候选 项 。 这 个 函数 可 以 直接 读 取 sas7dbat 格 式 的 SAS 数 据 
。 这 个 例子 的 对 应 代码 是 : 


library (sas7bdat) 
mydata <- read.sas7bdat ("C:/mydata/clients.sas7bdat") 


不 像 sas .get () ，read.sas7dbat () 忽 略 了 SAS 用 户 自 定义 格式 。 此 外 ， 这 个 函数 用 了 明 
显 更 多 的 时 间 来 进行 处 理 。 尽 管 我 使 用 这 个 包 的 时 候 比较 好 运 , 它 依 然 应 该 被 认为 是 实验 性 质 的 。 

最 后 ， 一 款 名 为 Stat/Transfer 的 商业 软件 ( 在 2.3.12 节 介绍 ) 可 以 完好 地 将 SAS 数 据 集 (包括 
任何 已 知 的 变量 格式 ) 保存 为 R 数 据 框 。 与 read .sas7dbat () 一 样 ， 它 也 不 要 求 安装 SAS。 
































? Ly 





2.3.8 导入 Stata 数据 
要 将 Stata 数 据 导入 R 中 非常 简单 直接 。 所 需 代码 类 似 于 : 
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library (foreign) 
mydataframe <- read.dta("mydata.dta") 


这 里 ， mydata.dta 是 Stata 数 据 集 ，mydataframe 是 返回 的 R 数 据 框 。 

















2.3.9 导入 NetCDF 数据 


Unidata 项 目 主导 的 开源 软件 库 NetCDEF ( Network Common Data Form， 网 络 通用 数据 格式 ) 
定义 了 一 种 机 器 无 关 的 数据 格式 ， 可 用 于 创建 和 分 发 面向 数组 的 科学 数据 。NetCDF 格 式 通 常用 
来 存储 地 球 物理 数据 。ncaf 包 和 ncgf4 包 为 NetCDF 文 件 提供 了 高 层 的 R 接 口 。 

ncdf 包 为 通过 Unidata 的 NetCDF 库 ( 版 本 3 或 更 早 ) 创建 的 数据 文件 提供 了 支持 ， 而 且 在 
Windows、Mac OS X 和 Linux 上 均 可 使 用 。ncdqf4 包 支持 NetCDEF 4 或 更 早 的 版 本 ， 但 在 Windows 
上 尚 不 可 用 。 

考虑 如 下 代码 : 

library (ncdf) 


nc <- nc_open("mynetCDFfile") 
myarray <- get.var.ncdf (nc, myvar) 


在 本 例 中 , 对 于 包含 在 NetCDF 文 件 mynetCDFfile 中 的 变量 myvar, 其 所 有 数据 都 被 读 取 并 保 
存 到 了 一 个 名 为 myarray 的 R 数 组 中 。 

值得 注意 的 是 , ncdf 包 和 ncaf4 包 最 近 进行 了 重大 升级 , 使 用 方式 可 能 与 旧版 本 不 同 。 另外 ， 
这 两 个 包 中 的 函数 名 称 也 不 同 。 请 阅读 在 线 帮 助 以 了 解 详情 。 


























2.3.10 ”导入 HDF5 数据 


HDF5 ( Hierarchical Data Format， 分 层 数据 格式 ) 是 一 套用 于 管理 超大 型 和 结构 极端 复杂 数 
据 集 的 软件 技术 方案 。rhaf5 包 为 R 提 供 了 一 个 HDF5 的 接口 。 这 个 包 在 Bioconductor 网 站 上 而 不 
是 CRAN 上 提供 。 你 可 以 用 以 下 代码 对 之 进行 安装 : 





























Source ("http://biocondquctor .org/pbiocLite.R") 
biocLite("rhdf5") 


像 XML 一 样 ，HDF5S 格 式 超出 了 本 书 的 内 容 范围 。 如 果 想 学 习 更 多 相关 知识 ， 可 访问 HDF 
Group 网 站 ( http:/www.hdf5group.org/ ) 。 由 了 Bernd Fischer 编写 的 http:/www.bioconductor.org/ 
packages/release/bioc/vignettes/rhdf5/inst/doc/rhdf5.pdf 是 一 个 rhdf5 包 的 优秀 指南 。 


2.3.11 访问 数据 库 管 理 系 统 


R 中 有 多 种 面向 关系 型 数据 库 管理 系统 ( DBMS ) 的 接口 ,包括 Microsoft SQL Server、 Microsoft 
Access、MySQL 、Oracle 、PostgreSQL 、DB2 、Sybase 、Teradata 以 及 SQLite。 其 中 一 些 包 通过 原 
生 的 数据 库 驱 动 来 提供 访问 功能 ， 另 一 些 则 是 通过 ODBC 或 JDBC 来 实现 访问 的 。 使 用 R 来 访问 存 
储 在 外 部 数据 库 中 的 数据 是 一 种 分 析 大 数据 集 的 有 效 手 段 (参见 附录 F )， 并 且 能 够 发 挥 SQL 和 及 
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各 自 的 优势 。 

1. ODBC 接 口 

在 R 中 通过 RODBC 包 访问 一 个 数据 库 也 许 是 最 流行 的 方式 ， 这 种 方式 允许 R 连 接 到 任意 一 种 
拥有 ODBC 了 驱动 的 数据 库 ， 这 包含 了 前 文 所 列 的 所 有 数据 库 。 

第 一 步 是 针对 你 的 系统 和 数据 库 类 型 安装 和 配置 合适 的 ODBC 了 驱动 一 一 它们 并 不 是 R 的 一 部 
分 。 如 果 你 的 机 器 尚未 安装 必要 的 驱动 ， 上 网 搜索 一 下 应 该 就 可 以 找到 。 

针对 选择 的 数据 库 安装 并 配置 好 驱动 后 ,请 安装 RoDBC 包 。 你 可 以 使 用 命令 
install.packages ("RODBC") 来 安装 它 。RODBC 包 中 的 主要 函数 列 于 表 2-3 中 。 


























表 2-3 RODBC 中 的 函数 


















































函 数 描 述 
odbcConnect (dsn,uid="",pwd="") 建立 一 个 到 ODBC 数据 库 的 连接 
sqlFetch (channel, sqltable) 读 取 ODBC 数据 库 中 的 某 个 表 到 一 个 数据 框 中 
sqlQuery (channe1, Guery) 向 ODBC 数据 库 提 交 一 个 查询 并 返回 结果 
sqlSave (channel, mydf, tablename=sqtable,append=FALSE) ”将 数据 框 写 人 或 更 新 ( append=TRUE ) 到 ODBC 

数据 库 的 某 个 表 中 

sqlDrop (channel, sgtable) 删除 ODBC 数据 库 中 的 某 个 表 
close (channe]) 关闭 连接 

















RODBC 包 人 允许 R 和 一 个 通过 ODBC 连 接 的 SQL 数 据 库 之 间 进 行 双向 通信 。 这 就 意味 着 你 不 仅 可 
以 读 取 数据 库 中 的 数据 到 R 中 ， 同 时 也 可 以 使 用 R 修 改 数据 库 中 的 内 容 。 假 设 你 想 将 某 个 数据 库 
中 的 两 个 表 ( Crime 和 Punishment ) 分 别 导 入 为 R 中 的 两 个 名 为 crimedqat 和 punaat 的 数据 框 ， 可 
以 通过 如 下 代码 完成 这 个 任务 : 

library (RODBC) 

myconn <-odbcConnect ("mydsn", uid="Rob", pwd="aardvark") 

crimedat <- sqlFetch(myconn, Crime) 


pundat <- sqlQuery (myconn, "select * from Punishment") 
close (myconn) 


这 里 首先 载 人 了 RODBC 包 ， 并 通过 一 个 已 注册 的 数据 源 名 称 ( mydsn ) 和 用 户 名 ( rob ) 以 
及 密码 (aardvark ) 打开 了 一 个 ODBC 数 据 库 连 接 。 连 接 字 符 串 被 传递 给 sqlFetch()， 它 将 
Crime 表 复制 到 R 数 据 框 crimedat 中 。 然 后 我 们 对 Punishment 表 执行 了 SQL 语 句 select 并 将 结果 
保存 到 数据 框 pundat 中 。 最 后 ， 我 们 关闭 了 连接 。 

函数 sqlQuery () 非 常 强 大， 因为 其 中 可 以 插入 任意 的 有 效 SQL 语 句 。 这 种 灵活 性 赋予 了 你 
选择 指定 变量 、 对 数据 取 子 集 、 创 建新 变量 ， 以 及 重 编码 和 重 命名 现 有 变量 的 能 

2. DBI 相 关 包 

DBI 包 为 访问 数据 库 提供 了 一 个 通用 日 一 致 的 客户 端 接口 。 构 建 于 这 个 框架 之 上 的 RJDBC 包 
提供 了 通过 JDBC 了 驱动 访问 数据 库 的 方案 。 使 用 时 请 确保 安装 了 针对 你 的 系统 和 数据 库 的 必要 
JDBC 驱 动 。 其 他 有 用 的 、 基 于 DBI 的 包 有 RMySOL、ROracle、RPostgreSQL 和 RSOLite。 这 些 
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包 都 为 对 应 的 数据 库 提 供 了 原生 的 数据 库 驱 动 ， 但 可 能 不 是 在 所 有 系统 上 都 可 用 。 
CRAN (http:/cran.r-project.org ) 上 的 相应 文档 。 





2.3.12 通过 Stat/Transfer 导入 数据 





详情 请 参阅 


在 我 们 结束 数据 导入 的 讨论 之 前 ， 值 得 提 到 一 款 能 让 上 述 任务 的 难度 显著 降低 的 商业 软件 。 





Stat/Transfer ( www.stattransfer.com ) 是 一 款 可 在 34 种 数据 格式 之 间作 转换 的 独立 应 月 


程序 ， 其 中 





包括 R 中 的 数据 格式 ( 见 图 2-4 )。 













中， Stat/Transfer 


Transfer |Variables | Observations | Options | Run Program | Log | About 








Input File Type: SAS wi? 
1-2-3 xh 

ASCIUText = Delimited 
ASCIVText - StavTransfer Schema 
dBASE or Compatible 









File Specification 












JMP - Version 3 
JMP - Versions 4+ 
LIMDEP 
Output File Type: Matlab sl| 2 
Mineset 三 
Minitab 
File Specification: NLOGIT Y | Browse 
ODBC Data Source 
OSIRIS 
Paradox 
Quattro Pro 
R Workspace 


Table 













SAS for Unmx 
a SAS CPORT Exit 
SAS Transport 

S-PLUS 

SPSS Data File 
SPSS Portable Fie 








图 2-4 ”Windows 上 Stat/Transfer 的 主 对 话 框 


此 软件 拥有 Windows、Mac 和 Unix 版 本 ,并且 支持 我 们 目前 讨论 过 的 各 种 统计 软件 的 最 新 版 
本 ， 也 可 通过 ODBC 访 问 如 Oracle 、Sybase 、Informix 和 DB/2 一 类 的 数据 库 管 理 系 统 。 








2.4 数据 集 的 标注 














为 了 使 结果 更 易 解 读 , 数据 分 析 人 员 通 常会 对 数据 集 进 行 标注 。 这 种 标注 包括 为 变量 名 添加 
描述 性 的 标签 ， 以 及 为 类 别 型 变量 中 的 编码 添加 值 标签 。 例 如 ， 对 于 变量 age， 你 可 能 想 附 加 一 
个 描述 更 详细 的 标签 “Age at hospitalization (in years)”( 和 人 院 年 龄 )。 对 于 编码 为 1 或 2 的 性 别 变量 

















gender， 你 可 能 想 将 其 关联 到 标签 “male” 和 “female” 上 。 
2.4.1 变量 标签 


遗憾 的 是 ，R 处 理 变 


和 





标签 的 能 力 有 限 。 一 种 解决 方法 是 将 变量 标签 作为 变量 名 ， 然 后 通过 
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位 置 下 标 来 访问 这 个 变量 。 考 虑 之 前 病例 数据 框 的 例子 。 名 为 age 的 第 二 列 包含 着 个 体 首次 入 院 
时 的 年 龄 。 代 码 : 

names (patientdata) [2] <- "Age at hospitalization (in years)" 
将 age 重 命名 为 "Age at hospitalization (in years)"。 很 明显 ， 新 的 变量 名 太 长 ， 不 适 
合 重复 输入 。 作 为 替代 ， 你 可 以 使 用 patientdata[2]1 来 引用 这 个 变量 ， 而 在 本 应 输出 age 的 地 
方 输出 字符 串 "aAge at hospitalization (in years)"。 很 显然 ， 这 个 方法 并 不 理想 ， 如 果 
你 能 尝试 想 出 更 好 的 命名 ( 例如 ，agmi ssionage ) 可 能 会 更 好 一 点 。 














2.4.2” 值 标签 

函数 factor () 可 为 类 别 型 变量 创建 值 标签 。 继 续 上 例 ， 假 设 你 有 一 个 名 为 genaer 的 变量 ， 
其 中 1 表示 男性 ，2 表 示 女 性 。 你 可 以 使 用 代码 : 

patientdata$sgender <- factor (Patientdatasgendqer， 


levels = c(1,2), 
labels = c("male", "female")) 


来 创建 值 标签 。 
这 里 levels 代 表 变 量 的 实际 值 ， 而 labels 表 示 包 含 了 理想 值 标签 的 字符 型 向 量 。 


2.5 “处 理 数据 对 象 的 实用 函数 
在 本 章 末尾 ， 我 们 来 简要 总 结 一 下 实用 的 数据 对 象 处 理 函 数 (参见 表 2-4 )。 
表 2-4 “处理 数据 对 象 的 实用 函数 


























函数 用 。 途 
length (object) 显示 对 象 中 元 素 /成 分 的 数量 
dim(object) 显示 某 个 对 象 的 维度 
str (object) 显示 某 个 对 象 的 结构 
class (object) 显示 某 个 对 象 的 类 或 类 型 
mode (obJect) 显示 某 个 对 象 的 模式 
names (object) 显示 某 对 象 中 各 成 分 的 名 称 
clobject, object,...) 将 对 象 合 并 人 一 个 向 量 
cbind(object, object, ...) 按 列 合并 对 象 
rbind(object, object, ...) 按 行 合并 对 象 
object 输出 某 个 对 象 
head (object) 列 出 某 个 对 象 的 开始 部 分 
tail (object) 列 出 某 个 对 象 的 最 后 部 分 
iel 显示 当前 的 对 象 列表 
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( 续 ) 
函数 用 途 
rm(object, object, ...) I 除 一 个 或 更 多 个 对 象 。 语句 rm(1ist = 1s()) 将 
I 除 当 前 工作 环境 中 的 几乎 所 有 对 象 ” 
newobject <- edit (object) 编辑 对 象 并 另存 为 newobject 
fix(object) 本 接 编辑 对 象 

















我 们 已 经 讨论 过 其 中 的 大 部 分 函数 。 函 数 head() 和 tail() 对 于 快速 浏览 大 数据 集 的 结构 非 
常 有 用 。 例 如 ，head (patientdqata) 将 列 出 数据 框 的 前 六 行 ， 而 tail (patientdata) 将 列 出 
最 后 六 行 。 我 们 将 在 下 一 章 中 介绍 length () 、cbind() 和 rbing() 等 函数 。 我们 将 其 汇总 于 此 ， 
仅 作 参考 。 








2.6 小 结 


数据 的 准备 可 能 是 数据 分 析 中 最 具 挑 战 性 的 任务 之 一 。 我 们 在 本 章 中 概述 了 R 中 用 于 存储 数 
据 的 多 种 数据 结构 ， 以 及 从 键盘 和 外 部 来 源 导 入 数据 的 许多 可 能 方式 , 这 是 一 个 不 错 的 起 点 。 特 
别 是 , 我 们 将 在 后 续 各 章 中 反复 地 使 用 向 量 、 珑 阵 、 数 据 框 和 列表 的 概念 。 掌 握 通 过 括号 表达 式 
选取 元 素 的 能 力 ， 对 数据 的 选择 、 取 子 集 和 变换 将 是 非常 重要 的 。 

如 你 所 见 ，R 提 供 了 丰富 的 函数 用 以 访问 外 部 数据 ， 包 括 普通 文本 文件 、 网 页 、 统 计 软 件 、 
电子 表格 和 数据 库 的 数据 。 虽 然 本 章 的 焦点 是 将 数据 导入 到 R 中 ， 你 同样 也 可 以 将 数据 从 R 导 出 
为 这 些 外 部 格式 。 数 据 的 导出 在 附录 C 中 论 及 ， 处 理 大 数据 集 ( GB 级 到 TB 级 ) 的 方法 在 附录 F 中 
讨论 。 

将 数据 集 读 入 R 之 后 ， 你 很 有 可 能 需要 将 其 转化 为 一 种 更 有 助 于 分 析 的 格式 (事实 上 ， 我 发 
现 处 理 数 据 的 紧迫 感 有 助 于 促进 学 习 )。 在 第 4 章 , 我 们 将 会 探索 创建 新 变量 、 变 换 和 重 编 码 已 
变量 、 合 并 数据 集 和 选择 观测 的 方法 。 

在 转 而 探讨 数据 管理 之 前 ， 让 我 们 先 花 些 时 间 在 R 的 绘图 上 。 许 多 读者 都 是 因为 对 R 绘 图 怀 
有 强烈 的 兴趣 而 开始 学 习 R 的 ， 为 了 不 让 你 们 久 等 ， 我 们 在 下 一 童 将 直接 讨论 图 形 的 创建 。 关 注 
的 重点 是 管理 和 定制 图 形 的 通用 方法 ， 它 们 在 本 书 余下 章节 都 会 用 到 。 










































































Oz 以 句点 .开头 的 隐藏 对 象 将 不 受 影 响 。 译 者 注 











本 章 内 容 

口 图 形 的 创建 和 保存 

口 自 定 义 符号 、 线 条 、 颜 色 和 坐标 轴 
口 标注 文本 和 标题 

口 控制 图 形 维度 

口 组 合 多 个 图 形 














我 曾经 多 次 向 客户 展示 以 数字 和 文字 表示 的 、 精 心 整理 的 统计 分 析 结 果 , 得 到 的 只 是 客户 呆 
潍 的 眼神 , 婚 俯 得 房间 里 只 能 听 到 鸟 语 虫 鸣 。 然 而 ， 当 我 使 用 图 形 向 相同 的 用 户 展示 相同 的 信息 
时 ,他 们 往往 会 兴致 泗 然 ,其 至 家 然 开朗 。 我 经 常 通过 看 图 才 得 以 发 现 了 数据 中 的 模式 , 或 是 检 
查 出 了 数据 中 的 异常 值 一 一 这 些 模式 和 异常 都 是 在 我 进行 更 为 正式 的 统计 分 析 时 彻底 遗漏 的 。 

人 类 非常 善于 从 视觉 呈现 中 洞察 关系 ,一 幅 精 心 绘制 的 图 形 能 够 帮助 你 在 数 以 千 计 的 零散 信 
息 中 做 出 有 意义 的 比较 , 提炼 出 使 用 其 他 方法 时 不 那么 容易 发 现 的 模式 。 这 也 是 统计 图 形 领 域 的 
进展 能 够 对 数据 分 析 产 生 重大 影响 的 原因 之 一 。 数 据 分 析 师 需要 观察 他 们 的 数据 ， 而 R 在 该 领域 
表现 出 众 。 

在 本 章 中 , 我 们 将 讨论 处 理 图 形 的 一 般 方法 。 我 们 首先 探讨 如 何 创建 和 保存 图 形 , 然后 关注 
如 何 修 改 那些 存在 于 所 有 图 形 中 的 特征 ,包括 图 形 的 标题 、 坐 标 轴 、 标 签 、 颜 色 、 线 条 、 符 号 和 
文本 标注 。 我 们 的 焦点 是 那些 可 以 应 用 于 所 有 图 形 的 通用 方法 。( 在 后 续 各 章 ， 我 们 将 关注 特定 
类 型 的 图 形 。) 最 后 ， 我 们 将 研究 组 合 多 幅 图 形 为 单 幅 图 形 的 各 种 方法 。 


3.1 使 用 图 形 


了 R 是 一 个 惊艳 的 图 形 构建 平台 。 这 里 我 特意 使 用 了 构建 一 词 。 在 通常 的 交互 式 会 话 中 ， 你 可 
以 通过 逐条 输入 语句 构建 图 形 ， 逐 渐 完 善 图 形 特征 ， 直 至 得 到 想 要 的 效果 。 

考虑 以 下 五 行 代码 : 

attach (mtcars) 


plot (wt, mpg) 
abline (lm (mpg~wt)) 
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title("Regression of MPG on Weight") 
detach (mtcars) 


首 句 绑 定 了 数据 框 mtcars。 第 二 条 语句 打开 了 一 个 图 形 窗 口 并 生成 了 一 幅 散 点 图 ， 横 轴 表 
示 车 身 重量 ， 纵 轴 为 每 加 仑 汽油 行驶 的 英里 数 。 第 三 名 向 图 形 添 加 了 一 条 最 优 拟 合 曲线 。 第 四 名 
添加 了 标题 。 最 后 一 句 为 数据 框 解除 了 绑 定 。 在 R 中 ， 图 形 通常 都 是 以 这 种 交互 式 的 风格 绘制 的 
( 参见 图 3-1 )。 
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图 3-1 创建 图 形 


可 以 通过 代码 或 图 形 用 户 界 面 来 保存 图 形 。 要 通过 代码 保存 图 形 , 将 绘图 语句 夹 在 开启 目标 
图 形 设 备 的 语句 和 关闭 目标 图 形 设备 的 语句 之 间 即 可 。 例 如 ， 以 下 代码 会 将 图 形 保 存 到 当前 工作 
目录 中 名 为 mygraph.pdf 的 PDF 文件 中 : 


pdf ("mygraph .pdf") 

attach (mtcars) 

plot (wt, mpg) 

abline (lm(mpg~wt)) 

title("Regression of MPG on Weight") 
detach (mtcars) 

dev.off() 









































除了 paf () ,还 可 以 使 用 函数 win.metafile()、png()、jpeg()、bmp()、tiff()、xfig() 
和 postscript () 将 图 形 保存 为 其 他 格式 。( 注意 , Windows 图 元 文件 格式 仅 在 Windows 系 统 中 可 
用 。) 关于 保存 图 形 输出 到 文件 的 更 多 细节 ， 可 以 参考 1.3.4 节 。 
通过 图 形 用 户 界面 保存 图 形 的 方法 因 系统 而 异 。 对 于 Windows， 在 图 形 窗口 中 选择 “文件 ”一 
“另存 为 ”， 然 后 在 弹出 的 对 话 框 中 选择 想 要 的 格式 和 保存 位 置 即 可 。 在 Mac 上 ， 当 Quartz 图 形 窗 口 
处 于 高 亮 状态 时 ， 点 选 菜单 栏 中 的 “文件 ”一 “另存 为 ” 即 可 。 其 提供 的 输出 格式 仅 有 PDF。 在 
UNIX 系 统 中 ， 图 形 必 须 使 用 代码 来 保存 。 在 附录 A 中 ， 我 们 将 考虑 每 个 系统 中 可 用 的 备 选 图 形 用 
户 界面 ， 这 将 给 予 你 更 多 选择 。 
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通过 执行 如 plot () 、hist () (绘制 直方 图 ) 或 boxplot () 这 样 的 高 级 绘图 命令 来 创建 一 由 
新 图 形 时 ,通常 会 覆盖 掉 先 前 的 图 形 。 如 何 才能 创建 多 个 图 形 并 随时 查看 每 一 个 呢 ? 方法 有 若干 。 
第 一 种 方法 ,你 可 以 在 创建 一 幅 新 图 形 之 前 打开 一 个 新 的 图 形 窗口 : 
dev .new() 
statements to create graph 1 
dev.new() 


statements to create a graph 2 
etc. 


每 一 幅 新 图 形 将 出 现在 最 近 一 次 打开 的 窗口 中 。 

第 二 种 方法 ， 你 可 以 通过 图 形 用 户 界 面 来 查看 多 个 图 形 。 在 Mac 上 ， 你 可 以 使 用 Quartz 菜 单 
中 的 “后 退 ”( Back ) 和 “前 进 ”( Forward ) 来 逐个 浏览 图 形 。 在 Windows 上 ， 这 个 过 程 分 为 两 
步 。 在 打开 第 一 个 图 形 窗 口 以 后 ， 勾 选 “ 历 史 ”( History ) 一 “记录 ”( Recording )。 然 后 使 用 菜 
单 中 的 “上 一 个 ”( Previous ) 和 “下 一 个 ”( Next ) 来 逐个 查看 已 经 绘制 的 图 形 。 

最 后 一 种 方法 ， 你 可 以 使 用 函数 aev.new() 、dqev.next ()、dev.prev()、dev.set() 和 
qev.off() 同 时 打开 多 个 图 形 窗口 ,并 选择 将 哪个 输出 发 送 到 哪个 窗口 中 。 这 种 方法 全 平台 适用 。 
关于 这 种 方法 的 更 多 细节 ， 请 参考 help (dev .cur)。 

R 将 在 保证 用 户 输入 最 小 化 的 前 提 下 创建 尽 可 能 美观 的 图 形 。 不 过 你 依然 可 以 使 用 图 形 参数 
来 指定 字体 、 颜 色 、 线 条 类 型 、 坐 标 轴 、 参 考 线 和 标注 。 甚 灵活 度 足 以 让 我 们 实现 对 图 形 的 高 度 
定制 。 

我 们 将 以 一 个 简单 的 图 形 作为 本 章 的 开始 , 接着 进一步 探索 按 需 修 改 和 强化 图 形 的 方式 。 然 
后 , 我 们 将 着 眼 于 一 些 更 复杂 的 示例 ， 以 阐明 其 他 的 图 形 定 制 方法 。 我们 关注 的 焦点 是 那些 可 以 
应 用 于 多 种 R 图 形 的 技术 。 对 于 本 书 中 描述 的 所 有 图 形 ， 本 章 讨论 的 方法 均 有 效 ， 不 过 第 19 章 中 
使 用 ggplot2 包 创建 的 图 形 是 例外 。( ggplot2 包 拥有 自己 的 图 形 外 观 定制 方法 。) 在 其 他 各 章 
中 ， 我 们 将 探索 各 种 特定 的 图 形 ， 并 探讨 它们 每 一 个 在 何 时 何 地 最 有 用 。 


3.2 一 个 简单 的 例子 
让 我 们 从 表 3-1 中 给 出 的 假想 数据 集 开始 。 它 描述 了 病人 对 两 种 药物 五 个 剂量 水 平 上 的 响应 

























































































表 3-1 病人 对 两 种 药物 五 个 剂量 水 平 上 的 响应 情况 





剂 量 对 药物 A 的 响应 对 药物 B 的 响应 
20 16 15 
30 20 18 
40 27 25 
45 40 31 
60 60 40 


可 以 使 用 以 下 代码 输入 数据 : 
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dose <~--c{(20, 30, 40, 45, 60) 
drugA <- c(16, 20, 27, 40, 60) 
QuagB 2“C(1l5; .18 2 3L 40) 


使 用 以 下 代码 可 以 创建 一 幅 描述 药物 A 的 剂量 和 响应 关系 的 图 形 : 

plot (dose, drugA, type="b") 

plot () 是 R 中 为 对 象 作 图 的 一 个 泛 型 机 数 ( 它 的 输出 将 根据 所 绘制 对 象 类 型 的 不 同 而 变化 )。 
本 例 中 ，plot (x，y，type="b") 将 x 置 于 横 轴 ， 将 y 置 于 纵 轴 ， 绘 制 点 集 (*, y)， 然 后 使 用 线段 
将 其 连接 。 选 项 type="b" 表 示 同 时 绘制 点 和 线 。 使 用 help (plot) 可 以 查看 其 他 选项 。 结 果 如 
图 3-2 所 示 。 


























drugA 





dose 


图 3-2 ”药物 A 剂量 和 响应 的 折线 图 





折线 图 将 于 第 11 章 中 详 述 。 现 在 我 们 先 来 修改 此 图 的 外 观 。 


3.3 图 形 人 参数 


我 们 可 以 通过 修改 称 为 图 形 参数 的 选项 来 自 定义 一 幅 图 形 的 多 个 特征 ( 字体、 颜色、 坐标 轴 、 
标签 )。 一 种 方法 是 通过 函数 par () 来 指定 这 些 选项 。 以 这 种 方式 设 定 的 参数 值 除非 被 再 次 修改 ， 
否则 将 在 会 话 结 束 前 一 直 有 效 。 其 调用 格式 为 par(optionname=value， 
optionname=name, ...)。 不 加 参数 地 执行 par () 将 生成 一 个 含有 当前 图 形 参数 设置 的 列表 。 
添加 参数 no .readonly=TRUE 可 以 生成 一 个 可 以 修改 的 当前 图 形 参 数列 表 。 

继续 我 们 的 例子 , 假设 你 想 使 用 实心 三 角 而 不 是 空心 圆圈 作为 点 的 符号 , 并 且 想 用 虚线 代替 
实 线 连接 这 些 点 。 你 可 以 使 用 以 下 代码 完成 修改 : 


opar <- par (no.readonly=TRUE) 
Bar{lty=2, -peh=s17) 
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plot (dose, drugA, type="b") 
par (opar) 


结果 如 图 3-3 所 示 。 


drugA 





dose 


图 3-3 药物 A 剂量 和 响应 的 折线 图 。 修 改 了 线条 类 型 和 点 的 符号 








首 个 语句 复制 了 一 份 当前 的 图 形 参 数 设置 。 第 二 句 将 默认 的 线条 类 型 修改 为 虚线 ( Ity=2 ) 
并 将 默认 的 点 符号 改 为 了 实心 三 角 (pch=17 )。 然 后 我 们 绘制 了 图 形 并 还 原 了 原始 设置 。 线 条 类 
型 和 符号 将 在 3.3.1 节 中 详 述 。 
你 可 以 随心 所 欲 地 多 次 使 用 par () 函数 ， 即 par (1ty=2，pch=17) 也 可 以 写成 : 


par (lty=2) 
par (pch=17) 


指定 图 形 参 数 的 第 二 种 方法 是 为 高 级 绘图 函数 直接 提供 optionname=value 的 键 值 对 ,这 种 
情况 下 ， 指 定 的 选项 仅 对 这 幅 图 形 本 身 有 效 。 你 可 以 通过 代码 : 

plot (dose, drugA, type="b", lty=2, pch=17) 

来 生成 与 上 图 相同 的 图 形 。 

并 不 是 所 有 的 高 级 绘图 函数 都 允许 指定 全 部 可 能 的 图 形 参数 。 你 需要 参考 每 个 特定 绘图 函数 
的 帮助 (如 ?plot 、?hist 或 ?boxplot ) 以 确定 哪些 参数 可 以 以 这 种 方式 设置 。 下 面 介绍 可 以 
设 定 的 许多 重要 图 形 参数 。 



































3.3.1 符号 和 线条 


如 你 所 见 ， 可 以 使 用 图 形 参数 来 指定 绘图 时 使 用 的 符号 和 线条 类 型 。 相 关 参 数 如 表 3-2 所 示 。 
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表 3-2 用 于 指定 符号 和 线条 类 型 的 参数 


参 数 描 述 








pch 指定 绘制 点 时 使 用 的 符号 ( 见 图 3-4 ) 
cex ”指定 符号 的 大 小 。cex 是 一 个 数值， 表示 绘 图 符号 相对 于 默认 大 小 的 缩放 倍数 。 默 认 大 小 为 1，1.5 表 
示 放 大 为 默认 值 的 1.5 倍 ，0.5 表示 缩小 为 默认 值 的 50%， 等 等 


























lty 指定 线条 类 型 ( 参见 图 3-5 ) 
lwd 指定 线条 宽度 。1wa 是 以 默认 值 的 相对 大 小 来 表示 的 ( 默认 值 为 1 ), 例如 ，1lwa=2 将 生成 一 条 两 倍 于 





默认 宽度 的 线条 





选项 och= 用 于 指定 绘制 点 时 使 用 的 符号 。 可 能 的 值 如 图 3-4 所 示 。 





绘图 符号 : pch= 
O00%5®@10m15°20v25 














oO1v6x11e16021 








和 2g7 田 12 全 17 口 22 


























十 3 米 8 芯 13*18223 


x4 人 9m14e19^ 和 24 








图 3-4 ”参数 pch 可 指定 的 绘图 符号 


对 于 符号 21~25， 你 还 可 以 指定 边界 颜色 ( col= ) 和 填充 色 (bg= )。 
选项 1ty= 用 于 指定 想 要 的 线条 类 型 。 可 用 的 值 如 图 3-5 所 示 。 











线条 类 型 : lty= 











图 3-$ ”参数 lty 可 指定 的 线条 类 型 
综合 以 上 选项 ， 以 下 代码 : 


plot (dose, drugA, type="b", lty=3, lwd=3, pch=15, cex=2) 
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将 绘制 一 幅 图 形 ， 其 线条 类 型 为 点 线 ， 宽 度 为 默认 宽度 的 3 倍 ， 点 的 符号 为 实心 正方 形 ， 大 小 为 
默认 符号 大 小 的 2 倍 。 结 果 如 图 3-6 所 示 。 








OO 
OO 


50 





drugA 
30 40 


20 


20 30 40 50 60 
dose 


图 3-6 药物 A 剂 量 和 响应 的 折线 图 。 修 改 了 线条 类 型 、 线 条 宽度 、 点 的 符号 和 符号 
大 小 


接 下 来 我 们 将 讨论 颜色 的 指定 方法 。 








3.3.2 颜色 
R 中 有 若干 和 颜色 相关 的 参数 。 表 3-3 列 出 了 一 些 常用 参数 。 
表 3-3 ”用 于 指定 颜色 的 参数 
































人 参 数 描 述 

eol 默认 的 绘图 颜色 。 某 些 函 数 ( 如 1ines 和 pie ) 可 以 接受 一 个 含有 颜色 值 的 向 量 并 自动 循环 使 用 。 
例如 ， 如 果 设 定 col=c ("red"， "plue") 并 需要 绘制 三 条 线 ， 则 第 一 条 线 将 为 红色 ， 第 二 条 线 为 蓝 
色 ， 第 三 条 线 又 将 为 红色 





标 轴 刻度 文字 的 颜色 
标 轴 标签 (名称 ) 的 颜色 
Col .maiDn 标题 颜色 





外 
| 











col.sub 副标题 颜色 
fg 全 形 的 前 景色 
bg 到 形 的 背景 











在 R 中 ， 可 以 通过 颜色 下 标 、 颜 色 名 称 、 十 六 进 制 的 颜色 值 、RGB 值 或 HSV 值 来 指定 颜色 。 
举例 来 说 ，col=1、col="white"、col="#FFFFFF"、col=rgb(1,1,1) 和 col=hsv(0,0,1) 
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都 是 表示 白色 的 等 价 方式 。 函 数 *gb () 可 基于 红 - 绿 - 蓝 三 色 值 生成 颜色 ， 而 hsv() 则 基于 色相 - 
饱和 度 - 亮度 值 来 生成 颜色 。 请 参考 这 些 函 数 的 帮助 以 了 解 更 多 细节 。 

函数 colors () 可 以 返回 所 有 可 用 颜色 的 名 称 。Earl F. Glynn 为 R 中 的 色彩 创建 了 一 个 优秀 的 
在 线 图 表 ， 参 见 http://research.stowers-institute.org/efg/R/Color/Chart。R 中 也 有 多 种 用 于 创建 连续 
型 颜色 向 量 的 函数 ,包括 rainbow() 、heat.colors()、terrain.colors()、topo.colors() 
以 及 cm.colors () 。 举 例 来 说 ，rainbow(10) 可 以 生成 10 种 连续 的 “彩虹 型 ”颜色 。 

对 于 创建 吸引 人 的 颜色 配对 ， 到 欢迎 。 注 意 在 第 一 次 使 用 它 之 前 先进 
行 下 载 (install.packages ("RColorBrewer"))。 安 装 之 后 ， 使 用 函数 brewer . pal (n, name) 
来 创建 一 个 颜色 值 的 向 量 。 比 如 说 ， 以 下 代码 : 

library (RColorBrewer) 

I 


mycolors <- brewer.pal (n, "Set1") 
barplot (rep(1,n), col=mycolors) 


从 Set1 调 色 板 中 抽取 了 7 种 用 十 六 进 制 表示 的 颜色 并 返回 一 个 向 量 。 若 要 得 到 所 有 可 选调 色 板 的 
列表 , 输入 brewer.pal.info; 或 者 输入 display .brewer.all() 从 而 在 一 个 显示 输出 中 产生 
每 个 调 色 板 的 图 形 。 请 参阅 help (RColorBrewer) 获得 更 加 详细 的 帮助 。 

最 后 , 多 阶 灰 度 色 可 使 用 基础 安装 所 自 带 的 gray () 函数 生成 。 这 时 要 通过 一 个 元 素 值 为 0 和 
1 之 间 的 向 量 来 指定 各 颜色 的 灰 度 。gray (0:10/10) 将 生成 10 阶 灰 度 色 。 试 着 使 用 以 下 代码 


M0 

mycolors <- rainbow(n) 

pie(rep(1, n), labels=mycolors, col=mycolors) 
mygrays <- gray (0:n/n) 

pie(rep(1, n), labels=mygrays, col=mygrays) 


来 观察 这 些 函 数 的 工作 方式 。 
你 可 以 看 到 ，R 提 供 了 多 种 创建 颜色 变量 的 方法 。 使 用 颜色 参数 的 示例 将 贯穿 本 章 。 
3.3.3 ”文本 属性 


图 形 参 数 同样 可 以 用 来 指定 字号 、 字 体 和 字样 。 表 3-4 阐 释 了 用 于 控制 文本 大 小 的 参数 。 字 
体 族 和 字样 可 以 通过 字体 选项 进行 控制 ( 见 表 3-5 )。 


表 3-4 用 于 指定 文本 大 小 的 参数 












































参 数 描 述 
ex 表示 相对 于 默认 大 小 缩放 倍数 的 数值 。 默认 大 小 为 1，1.5 表示 放大 为 默认 值 的 1.5 倍 ,0.5 表示 缩小 为 


默认 值 的 50%， 等 等 
Cex.axis 坐标 轴 刻 度 文字 的 缩放 倍数 。 类 似 于 cex 
cex.lab 坐标 轴 标 签 (名 称 ) 的 缩放 倍数 。 类 似 于 cex 
cex.main 标题 的 缩放 倍数 。 类 似 于 cex 
副标题 的 缩放 倍数 。 类 似 于 cex 


坟 








Cex .Sub 





型 
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表 3-5 ”用 于 指定 字体 族 、 字 号 和 字样 的 参数 
参数 描述 

font 整数 。 用 于 指定 绘图 使 用 的 字体 样式 。1= 常 规 ，2= 粗 体 ，3= 和 斜体 ，4= 粗 斜体 ，5= 符 号 字体 ( 以 Adobe 
符号 编码 表示 ) 

font .axis 坐标 轴 刻 度 文字 的 字体 样式 

font.1lab 坐标 轴 标 签 ( 名 称 ) 的 字体 样式 

font .main 标题 的 字体 样式 

font .sub 副标题 的 字体 样式 

ps 字体 磅 值 (1 磅 约 为 172 英寸 ) 文本 的 最 终 大 小 为 ps*cex 

family 绘制 文本 时 使 用 的 字体 族 。 标 准 的 取 值 为 serif ( 衬 线 )、sans (无 衬 线 ) 和 mono ( 等 宽 


举例 来 说 ， 在 执行 语句 : 
par (font.lab=3, cex.lab=1.5, font.main=4, cex.main=2) 


之 后 创建 的 所 有 图 形 都 将 拥有 和 斜体 、1.5 倍 于 默认 文本 大 小 的 坐标 轴 标 签 ( 名 称 )， 以 及 粗 斜体 、 
2 倍 于 默认 文本 大 小 的 标题 。 
我 们 可 以 轻松 设置 字号 和 字体 样式 ， 然 而 字体 族 的 设置 却 稍 显 复杂 。 这 是 因为 衬 线 、 无 衬 线 
和 等 宽 字体 的 具体 映射 是 与 图 形 设备 相关 的 。 举 例 来 说 , 在 Windows 系 统 中 ,等 宽 字 体 映 射 为 TT 
Courier New， 衬 线 字 体 映 射 为 TT Times New Roman， 无 衬 线 字 体 则 映射 为 TT Arial (TT 代表 True 
Type )。 如 果 你 对 以 上 映射 表示 满意 ， 就 可 以 使 用 类 似 于 family="serif" 这 样 的 参数 获得 想 要 
的 结果 。 如 果 不 满意 ， 则 需要 创建 新 的 映射 。 在 Windows 中 ， 可 以 通过 函数 windowsFont () 来 
创建 这 类 映射 。 例 如 ， 在 执行 语句 : 
windowsFonts( 
A=windowsFont ("Arial Black"), 
B=windowsFont ("Bookman Old Style"), 


C=windowsFont ("Comic Sans MS") 


) 

之 后 , 即 可 使 用 A、B 和 c 作 为 family 的 取 值 。 在 本 例 的 情境 下 , par (family="A") 将 指定 Arial 
Black 作 为 绘图 字体 。( 3.4.2 节 中 的 代码 清单 3-2 提 供 了 一 个 修改 文本 参数 的 示例 。) 请 注意 ， 孜 
数 windowsFont () 仅 在 Windows 中 有 效 。 在 Mac 上 ， 请 改 用 quartzFonts () 。 

如 果 以 PDF 或 PostScript 格 式 输出 图 形 , 则 修改 字体 族 会 相对 简单 一 些 。 对 于 PDF 格式 ， 可 以 
使 用 names(pdafFonts() ) 找 出 你 的 系统 中 有 哪些 字体 是 可 用 的 ， 然 后 使 用 paf (file= 
"mypIot.pdf"，family="fontname") 来 生成 图 形 。 对 于 以 PostScript 格 式 输出 的 图 形 ， 则 可 
以 对 应 地 使 用 names (postscriptFonts()) 和 postscript (file="myplot.ps", family= 
" fontname")。 请 参阅 在 线 帮助 以 了 解 更 多 信息 。 


3.3.4 ”图 形 尺寸 与 边 客 尺寸 
最 后 ， 可 以 使 用 表 3-6 列 出 的 参数 来 控制 图 形 尺 寸 和 边界 大 小 。 
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表 3-6 ”用 于 控制 图 形 尺 寸 和 边界 大 小 的 参数 


描 述 











Din 以 英寸 表示 的 图 形 尺 寸 ( 宽 和 高 ) 


mai 以 数值 向 量 表示 的 边界 大 小 ,顺序 为 “下 、 左 、 上 、 右 ”， 单 位 为 英寸 








» 
» 


Wa 以 数值 向 量 表示 的 边界 大 小 


代码 : 


par(pinmse(d3) 2 mar ld, ly" 2 








顺序 为 “下 、 左 、 上 、 右 ”， 单 位 为 英 分 "。 默 认 值 为 c(5, 4, 4, 2) + 0.1 


可 生成 一 幅 4 英 寸 宽 、3 英 寸 高 、 上 下 边界 为 1 英寸 、 左 边界 为 0.5 英 寸 、 右 边界 为 0.2 英 寸 的 图 形 。 
关于 边界 参数 的 完整 指南 ， 不 妨 参 阅 Earl FGlym 编 写 的 一 份 全 面 的 在 线 教程 
( http://research.stowers-institute.org/efg/R/Graphics/Basics/mar-oma/ )。 让 我 们 使 用 最 近 学 到 的 选项 
来 强化 之 前 的 简单 图 形 示例 。 代 码 清单 3-1 中 的 代码 生成 的 图 形 如 图 3-7 所 示 。 


代码 清单 3-1 使 用 图 形 参数 控制 图 形 外 观 
dose <- c(20, 30, 40, 45, 60) 
rugk = G(T6 20% BID 40 ' 60) 
UrigB «= C(t5, "L825. 六 0) 








opar <- par(no.readonly=TRUE) 
par (pin=c (2, 3)) 

par (lwd=2, cex=1.5) 

par (cex.axis=.75, font.axis=3) 




















plot (dose, drugA, type="b", pch=19, lty=2, col="red") 
plot (dose, drugB, type="b", pch=23, lty=6, col="blue", bg="green") 


par (opar) 


drugA 
40 50 60 


30 


20 





20 30 40 50 60 


dose 


drugB 
25 30 35 40 


20 





15 


dose 








图 3-7 药物 A 和 药物 B 剂 量 与 响应 的 折线 图 


首先 ,你 以 向 量 的 形式 输入 了 数据 ,然后 保 











人 一 英 分 等 于 十 二 分 之 一 英寸 (0.21 厘 米 )。 一 一 译 者 注 





存 了 当前 的 图 形 参数 设置 ( 这 样 就 可 以 在 稍 后 恢 
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复 设置 )。 接 着 ， 你 修改 了 默认 的 图 形 参数 ， 得 到 的 图 形 将 为 ?英寸 宽 、3 英 寸 高。 除 此 之 外 , 线 


条 的 宽度 将 为 和 
小 为 默认 大 小 





的 绿色 获 形 加 蓝 色 边 忆 





75%。 之 后 ， 我 们 使 用 红色 实心 




















值得 注意 











对 那个 特定 图 形 有 效 。 


观察 图 3-7 可 以 发 现 ， 图 形 的 呈现 上 还 有 一 定 缺 陷 。 这 两 幅 


单位 不 同 ， 这 无 疑 限制 了 我 们 直接 比较 两 种 药物 的 能 力 。 同 时 ， 坐 标 轴 的 标签 ( 名 称 ) 也 应 当 提 








供 更 多 的 信息 。 
下 一 节 中 , 我 们 将 转 而 探讨 如 何 自 定 义 文本 标注 ( 如 标题 和 标签 ) 和 坐标 轴 。 要 了 解 可 用 图 
形 参数 的 更 多 信息 ， 请 参阅 help (par) 。 


3.4 添加 文本 、 自 定义 坐标 轴 和 图 例 





默认 宽度 的 两 倍 ， 符 号 将 为 默认 大 小 的 1.$ 倍 。 坐 标 轴 刻 度 文本 被 设置 为 斜体 、 缩 
加 圈 和 虚线 创建 了 第 一 幅 图 形 ， 并 使 用 绿色 
E 和 蓝 色 虚线 创建 了 第 二 幅 图 形 。 最 后 ， 我 们 还 原 了 初始 的 图 形 参数 设置 。 
是 ， 通 过 par () 设 定 的 参数 对 两 幅 图 都 有 效 ， 而 在 plot () 函数 中 指定 的 参数 仅 











I 








( 充 








图 都 缺少 标题 ， 并 且 纵 轴 的 刻度 








除了 图 形 参数 ， 许 多 高 级 绘图 函数 (例如 plot 、hist、boxplot ) 也 允许 自行 设 定 坐 标 轴 
和 文本 标注 选项 。 举 例 来 说 ， 以 下 代码 在 图 形 上 添加 了 标题 (main )、 副 标题 ( sub )、 坐 标 轴 标 
签 (xlab、ylab ) 并 指定 了 坐标 轴 范 围 (xlim、y1lim )。 结 果 如 图 3-8 所 示 。 


plot (dose, drugA, type="b", 


Els 





"red", lty=2, pch=2, lwd=2, 


main="Clinical Trials for Drug A", 


sub= 


xlab="Dosage", 


"This is hypothetical data", 


xlim=c(0, 60), ylim=c(0, 70)) 


Clinical Trials for Drug A 





ylab="Drug Response", 





Drug Response 














Dosage 
This is hypothetical data 





图 3-8 ”药物 A 剂量 和 响应 的 折线 图 。 添 加 了 标题 、 副 标题 和 自 定义 的 坐标 轴 
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再 次 提醒 ,并 非 所 有 函数 都 支持 这 些 选项 。 请 参考 相应 函数 的 帮助 以 了 解 其 可 以 接受 哪些 选 
项 。 从 更 精细 的 控制 和 模块 化 的 角度 考虑 ， 你 可 以 使 用 本 节余 下 部 分 描述 的 函数 来 控制 标题 、 坐 
标 轴 、 图 例 和 文本 标注 的 外 观 。 

















注意 某 些 高 级 绘图 函数 已 经 包含 了 默认 的 标题 和 标签 。 你 可 以 通过 在 blot () 语 和 句 或 单独 的 
par () 语 句 中 添加 ann-=FALSE 来 移 除 它们 。 





3.4.1 标题 


可 以 使 用 title() 函数 为 图 形 添 加 标题 和 坐标 轴 标 签 。 调 用 格式 为 : 


title(main="main title", sub="subtitle", 
xlab="x-axis label", ylab="y-axis label") 


函数 tit1ie() 中 亦 可 指定 其 他 图 形 参数 ( 如 文本 大 小 、 字 体 、 旋 转角 度 和 颜色 )。 举 例 来 说 ， 
以 下 代码 将 生成 红色 的 标题 和 蓝 色 的 副标题 ， 以 及 比 默认 大 小 小 25% 的 绿色 x 轴 、) 利 慰 签 : 


title(main="My Title", col.main="red", 
sub="My Subtitle", col.sub="blue", 
xlab="My X label", ylab="My Y label", 
col.lab="green", cex.lab=0.75) 


函数 title() 一 般 来 说 被 用 于 添加 信息 到 一 个 默认 标题 和 坐标 轴 标 签 被 ann=FALSE 选 项 移 
除 的 图 形 中 。 


3.4.2 ”坐标 轴 
你 可 以 使 用 函数 axis () 来 创建 自 定义 的 坐标 轴 ， 而 非 使 用 R 中 的 默认 坐标 轴 。 其 格式 为 : 


axis (side, at=, labels=, pos=, lty=, col=, las=, tck=, ...) 


各 参数 已 详 述 于 表 3-7 中 。 
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上 





表 3-7 “坐标 轴 选 项 



















































































选 项 描 述 

side 一 个 整数 ， 表 示 在 图 形 的 哪 边 绘制 坐标 轴 (1= 下 ，2= 左 ，3= 上 ，4= 右 ) 

2 一 个 数值 型 向 量 ， 表 示 需 要 绘制 刻度 线 的 位 置 

labels 一 个 字符 型 向 量 ， 表 示 置 于 刻度 线 旁 边 的 文字 标签 ( 如 果 为 NULL， 则 将 直接 使 用 at 中 的 值 ) 
pos 坐标 轴线 绘制 位 置 的 坐标 〈 即 与 男 一 条 坐标 轴 相 交 位置 的 值 ) 

LE 线条 类 型 

col 线条 和 刻度 线 颜色 

las 标签 是 否 平行 于 ( =0 ) 或 垂直 于 ( =2 ) 坐标 轴 
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( 续 ) 
选 项 描述 
| 度 线 的 长 度 ， 以 相对 于 绘图 区 域 大 小 的 分 数 表示 负 值 表示 在 图 形 外 侧 ， 正 值 表示 在 图 形 内 侧 ，0 
示 禁 用 刻度 ，1 表示 绘制 网 格 线 )， 默认 值 为 -0.01 
全 其 他 图 形 参 数 











a 
N 
PN 
























































创建 自 定义 坐标 轴 时 ， 你 应 当 禁 用 高 级 绘图 函数 自动 生成 的 坐标 轴 。 参 数 axes=FALSE 将 禁 
用 全 部 坐标 轴 ( 包括 坐标 轴 框 架 线 ， 除 非 你 添加 了 参数 frame .plot=TRUE )。 参 数 xaxt="n" 和 
yaxt="n" 将 分 别 禁 用 X 轴 或 ? 轴 (会 留 下 框架 线 ， 只 是 去 除了 刻度 )。 代 码 清单 3-2 中 是 一 个 稍 显 
笨拙 和 夸张 的 例子 ， 它 演示 了 我 们 到 目前 为 止 讨论 过 的 各 种 图 形 特征 。 结 果 如 图 3-9 所 示 。 


代码 清单 3-2 ” 自 定 义 坐 标 轴 的 示例 
:= ClO) 
y <- x 生成 数据 
名 已 = 下 由 /区 
opar <- par(no.readonly=TRUE) 





























增加 边界 大 小 
bar (mar=ce(S,. 4 4 8) + VD.1) ee 


plot (x, Y; type="b", . 
poh=21, col="red", 绘制 x 对 y 的 图 形 
Yaxt=s"n", lty=3, nn=FALSE) 
lines(x, Zz, type="b", pch=22, col="blue", lty=2) < 
添加 x 对 1/x 的 直线 


axis(2, at=x, labels=x, col.axis="red", las=2) 


axis(4, at=z, labels=round(z, digits=2), 绘制 你 自己 的 坐标 轴 
Ol Liss" DIU laS=2;. Cex.axXiss0 7; teks~0l) 


mtext ("y=1/x", side=4, line=3, cex.lab=1, las=2, col="blue") 


title("An Example of Creative Axes", 添加 标题 和 文本 
xlab="X values", 
ylab="Y=X") 

par (opar) 





到 目前 为 止 ， 我 们 已 经 讨论 过 代码 清单 3-2 中 除 1ines () 和 mtext () 以 外 的 所 有 函数 。 使 用 
plot () 语 句 可 以 新 建 一 幅 图 形 。 而 使 用 lines () 语 句 ， 你 可 以 为 一 幅 现 有 图 形 添 加 新 的 图 形 元 
素 。 在 3.4.4 节 中 , 你 会 再 次 用 到 它 , 在 同一 幅 图 中 绘制 药物 A 和 药物 B 的 响应 情况 。 函 数 mt ext () 
用 于 在 图 形 的 边界 添加 文本 。 我 们 将 在 3.4.5 节 中 讲 到 函数 mtext () ,同时 会 在 第 11 章 中 更 充分 地 
讨论 lines () 函数 。 
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An Example of Creative Axes 


y=1/x 





Xvalues 


图 3-9 ”各 种 坐标 轴 选 项 的 演示 


次 要 刻度 线 
注意 ， 我 们 最 近 创建 的 图 形 都 只 拥有 主 刻度 线 ， 却 没有 次 要 刻度 线 。 要 创建 次 要 刻度 线 ， 
你 需要 使 用 Hmisc 包 中 的 minor.tick() 函 数 。 如 果 你 尚未 安装 Hnisc 包 ， 请 先 安装 它 (参考 
1.4.2 节 )。 你 可 以 使 用 代码 : 


library (Hmisc) 
Wine Mele (na dh ele Meee on 


来 添加 次 要 刻度 线 。 其 中 nx 和 ny 分 别 指 定 了 XX 轴 和 7 了 轴 每 两 条 主 刻度 线 之 间 通 过 次 要 刻度 线 划 
分 得 到 的 区 间 个 数 。tick.ratio 表 示 次 要 刻度 线 相对 于 主 刻度 线 的 大 小 比例 。 当 前 的 主 刻度 
线 长 度 可 以 使 用 par ("tck") 获 取 。 举例 来 说 ,下列 语句 将 在 X 轴 的 每 两 条 主 刻度 线 之 间 添 加 1 
条 次 要 刻度 线 ， 并 在 7 轴 的 每 两 条 主 刻度 线 之 间 添 加 2 条 次 要 刻度 线 : 
Tren eel (ne a le ee ey) 
次 要 刻度 线 的 长 度 将 是 主 刻度 线 的 一 半 。3.4.4 节 中 给 出 了 添加 次 要 刻度 线 的 一 个 例子 (代码 清 
单 3-3 和 图 3-10 )。 


3.4.3 ”参考 线 
函数 abline () 可 以 用 来 为 图 形 添 加 参考 线 。 其 使 用 格式 为 : 


abline (h=yvalues, v=xvalues) 


函数 abline () 中 也 可 以 指定 其 他 图 形 参数 ( 如 线条 类 型 、 颜 色 和 宽度 )。 举 例 来 说 : 
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abline (h=c(1,5,7)) 
在 y 为 1、5、7 的 位 置 添加 了 水 平实 线 ， 而 代码 : 
abline(v=seq(1, 10, 2), lty=2, col="blue") 


则 在 x 为 1、3、5、7、9 的 位 置 添加 了 垂直 的 蓝 色 虚线 。 下 一 节 的 代码 清单 3-3 为 我 们 的 药物 效 
图 在 y 为 30 的 位 置 创建 了 一 条 参考 线 。 结 果 如 下 一 节 的 图 3-10 所 示 。 























‘i 





3.4.4 图 例 





当 图 形 中 包含 的 数据 不 止 一 组 时 , 图 例 可 以 帮助 你 辨别 出 每 个 条 形 、 扇 形 区 域 或 折线 各 代表 
哪 一 类 数据 。 我 们 可 以 使 用 函数 1egena () 来 添加 图 例 (果然 不 出 所 料 )。 其 使 用 格式 为 : 
legend (location, title, legend, ...) 


常用 选项 详 述 于 表 3-8 中 。 








表 3-8 ”图 例 选项 


选 项 描 述 














location 有 许多 方式 可 以 指定 图 例 的 位 置 。 你 可 以 直接 给 定 图 例 左 上 角 的 x、y 坐标 , 也 可 以 执行 locator (1) ， 
然后 通过 鼠标 单 击 给 出 图 例 的 位 置 , 还 可 以 使 用 关键 字 lbottom、 bottomleft、left、topleft、 top、 
topright 、right、bottomright 或 center 放置 图 例 。 如 果 你 使 用 了 以 上 某 个 关键 字 ， 那 么 可 以 
同时 使 用 参数 inset= 指 定 图 例 向 图 形 内 侧 移动 的 大 小 ( 以 绘图 区 域 大 小 的 分 数 表 示 ) 




























































































EES 图 例 标题 的 字符 串 (可 选 ) 
Le9end 图 例 标 签 组 成 的 字符 型 向 量 
其 他 选项 。 如 果 图 例 标 示 的 是 颜色 不 同 的 线条 , 需要 指定 col= 加 上 颜色 值 组 成 的 向 量 。 如 果 图 例 标示 

















的 是 符号 不 同 的 点 , 则 需 指定 pch= 加 上 符号 的 代码 组 成 的 向 量 。 如 果 图 例 标示 的 是 不 同 的 线条 宽度 或 
线条 类 型 ， 请 使 用 lwa= 或 1ty= 加 上 宽度 值 或 类 型 值 组 成 的 向 量 。 要 为 图 例 创建 颜色 填充 的 盒 形 ( 常 
见于 条 形 图 、 箱 线 图 或 饼 图 )， 需 要 使 用 参数 £1i11= 加 上 颜色 值 组 成 的 向 量 





















































其 他 常用 的 图 例 选 项 包括 用 于 指定 盒子 样式 的 bty、 指 定 背 景色 的 pg、 指定 大 小 的 cex， 以 
及 指定 文本 颜色 的 text .col。 指 定 noriz=TRUE 将 会 水 平 放 置 图 例 ， 而 不 是 垂直 放置 。 关 于 图 
例 的 更 多 细节 ， 请 参考 help (legend) 。 这 份 帮助 中 给 出 的 示例 都 特别 有 用 。 

让 我 们 看 看 对 药物 数据 作 图 的 一 个 例子 (代码 清单 3-3 )。 你 将 再 次 使 用 我 们 目前 为 止 讲 到 的 
许多 图 形 功 能 。 结 果 如 图 3-10 所 示 。 











T 























代码 清单 3-3” 依 剂量 对 比 药物 A 和 药物 B 的 响应 情况 
dose <- c(20, 30, 40, 45, 60) 
drugA <- c(16, 20, 27, 40, 60) 
drugB -<= .@( Ly 187 25, 317. E40) 


opar <- parl(no.readonly=TRUE) 


增加 线条 、 文 本 、 符 号 、 
示人 的 帘 ' 度 五 
Bar (1wd=2, cex-1.5, font.1ab=2) < 标签 的 宽度 或 大 小 
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plot (dose, drugA, type="b", 
Behs15,, Tty=1, “Col="red, ylim=e(0,.. 6007 
main="Drug A vs. Drug B"， 
xlab="Drug Dosage", ylab="Drug Response") 绘制 图 形 
lines(dose, drugB, type="b", 
pch=17, lty=2, col="blue") 
abline(h=c(30), lwd=1.5, lty=2, col="gray") 
library (Hmisc) 添加 次 要 刻度 线 
minor.tick (nx=3, ny=3, tick.ratio=0.5) 


legend("topleft", inset=.05, 
lty=o(ti, 2)» 和 三， 


titlie=s"Deag TyDe Ys -CC( VAT BT) 


添 | 
17), col=c("red", "blue")) 加 图 例 


par (opar) 


Drug A vs. Drug B 














8 
二 ES 和 可 加 
品 ] |Drug Type 
量 - 人 
S] 全 - B 
nm - 公 全 
路 /A- 
tw a 站 
= ee 
口 S = | 人 
| 
[= 
| | 
20 30 40 50 60 
Drug Dosage 
图 3-10 ”进行 标注 后 的 图 形 ， 对 比 了 药物 A 和 药物 B 的 效果 








图 3-10 的 几乎 所 有 外 观 元 素 都 可 以 使 用 本 章 中 讨论 过 的 选项 























进行 修改 。 除 此 之 外 , 还 有 很 多 


其 他 方式 可 以 指定 想 要 的 选项 。 最 后 一 种 需要 研究 的 图 形 标注 是 向 图 形 本 身 添 加 文本 , 请 阅读 下 


hs 


3.4.5 文本 标注 











我 们 可 以 通过 函数 Eext () 和 mtext () 将 文本 添加 到 图 形 上 。text () 可 向 绘图 区 域内 部 添加 

















文本 ， 而 mtext () 则 向 图 形 的 四 个 边界 之 一 添加 文本 。 使 用 格式 分 别 为 : 


text (location, 


mtext ("text to place", side, 


"text to place", pos, 


line=n, 


常用 选项 列 于 表 3-9 中 。 





- ) 
- ) 
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表 3-9 ”函数 text () 和 mtext () 的 选项 












































选 项 描述 
location 文本 的 位 置 参 数 。 可 为 一 对 x、y 坐标 ， 也 可 通过 指定 1ocation 为 1ocator (1) 使 用 鼠标 交互 式 地 确 
定 摆 放 位 置 
BOs 文本 相对 于 位 置 参数 的 方位 。 1= 下 , 2= 左 , 3= 上 , 4= 右 。 如 果 指 定 了 pos, 就 可 以 同时 指定 参数 offset= 
作为 偏 移 量 ， 以 相对 于 单个 字符 宽度 的 比例 表示 
side 间 定 用 来 放置 文本 的 边 。1= 下 ，2= 左 ，3= 上 ，4=- 右 。 你 可 以 指定 参数 1ine= 来 内 移 或 外 移 文 本 ， 随 着 
值 的 增加 ， 文 本 将 外 移 。 也 可 使 用 aqj=0 将 文本 向 左下 对 齐 ， 或 使 用 adj=1 右上 对 齐 区 








其 他 常用 的 选项 有 cex、col 和 font (分 别 用 来 调整 字号 、 颜 色 和 字体 样式 )。 

除了 用 来 添加 文本 标注 以 外 ，text () 函数 也 通常 用 来 标示 图 形 中 的 点 。 我 们 只 需 指定 一 系 
列 的 x、y 和 坐标 作为 位 置 参 数 ， 同 时 以 向 量 的 形式 指定 要 放置 的 文本 。x、y 和 文本 标签 向 量 的 长 度 
应 当 相 同 。 下 面 给 出 了 一 个 示例 ， 结 果 如 图 3-11 所 示 。 


attach (mtcars) 
plot (wt, mpg, 
main="Mileage vs. Car Weight", 
xlab="Weight", ylab="Mileage", 
beh=18., COl="DbIue") 
text (wt, mpg, 
row.names (mtcars), 
Cex=0.6, pos=4, col="red") 
detach (mtcars) 





























Mileage vs. Car Weight 














和 Toyota Corolla 
@ Fiat 128 
口 ® WotttpEidacpaic 
83] 
® Fiat X1-9 
@ Porsche 914-2 
站 二 
oO ® Merc240D 
Le2] 
8 ® Datsun 710 ® Merc 230 
三 ® Toyota 有 oWlgo 142F® Hornet 4 Drive 
® Mazdg Raeda RX4 Wag 
© 
GN ® Ferrari Dino 
争 Merc280®@ Pontiac Firebird 
® Hornet Sportabout 
$ Maledboc 
% Merc 450SL 
» Merc 450SE 
@ FordPanteral, | 
ww .J 4 RRR NassLc 
一 ® Chry| 
@ Duster 360 
4 Camaro 228 
eS 二 ® Cagilao 
T T T T 
2 3 4 5 


Weight 


图 3-11 一 幅 散 点 图 ( 车 重 与 每 加 仑 汽油 行驶 英里 数 ) 的 示例 ， 各 点 均 添 加 了 标签 
(车 型 ) 


60 第 3 章 图 形 初 阶 








这 个 例子 中 ， 我 们 针对 数据 框 mtcars 提 供 的 32 种 车 型 的 车 重 和 每 加 仑 汽油 行驶 英里 数 绘制 
了 散 点 图 。 函 数 text () 被 用 来 在 各 个 数据 点 右 侧 添 加 车 辆 型 号 。 各 点 的 标签 大 小 被 缩小 了 40%， 
颜色 为 红色 。 

作为 第 二 个 示例 ， 以 下 是 一 段 展示 不 同 字体 族 的 代码 : 

opar <- par(no.readonly=TRUE) 

par (cex=1.5) 

piottlri 1 -tes 

text (3,3,"Example of default text") 

text (4,4,family="mono", "Example of mono-spaced text") 


text (5,5,family="serif","Example of serif text") 
par (opar) 


在 Windows 系 统 中 输出 的 结果 如 图 3-12 所 示 。 这 里 为 了 获得 更 好 的 显示 效果 ,我 们 使 用 par () 
函数 增 大 了 字号 。 
































EC 
人 一 
[Ie | Example of serif text 
SS 七 刁 Example of mono-spaced text 
ee Example of default text 
QQ 一 





1:7 
图 3-12 ”Windows 中 不 同 字体 族 的 示例 


本 例 所 得 结果 因 平台 而 异 , 因为 不 同系 统 中 映射 的 常规 字体 、 等 宽 字体 和 有 衬 线 字 体 有 所 不 
同 。 在 你 的 系统 上 ， 结 果 看 起 来 如 何 呢 ? 











3.4.6 ”数学 标注 


最 后 ， 你 可 以 使 用 类 似 于 TeX 中 的 写法 为 图 形 添 加 数学 符号 和 公式 。 请 参阅 
help (plotmath) 以 获得 更 多 细节 和 示例 。 要 即时 看 效果 ， 可 以 尝试 执行 demo (plotmath) 。 
部 分 运行 结果 如 图 3-13 所 示 。 捕 数 plotmath () 可 以 为 图 形 主 体 或 边界 上 的 标题 、 坐 标 轴 名 称 
或 文本 标注 添加 数学 符号 。 
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xX%+-%y 


x>=y 
XxX%~~%y 
X %=~%y 
==% y 
x%prop% y 


站 


list(x, y, z) X,Y, Z i x 





underline(x) 
图 3-13 ”gdemo (plotmath) 的 部 分 结果 


同时 比较 多 幅 图 形 ， 我 们 通常 可 以 更 好 地 洞察 数据 的 性 质 
论 将 多 幅 图 形 组 合 为 一 幅 图 形 的 方法 。 


3.5 图形 的 组 合 


在 R 中 使 用 函数 par () 或 1ayout ( 
心 所 要 组 合 图 形 的 具体 类 型 , 这 
绘制 和 解读 问题 。 

你 可 以 在 par () 函数 中 使 用 图 形 参数 mfrow=c (nrows，ncols) 来 创建 按 行 填充 的 、 行 数 为 
Drows、 列 数 为 acols 的 图 形 和 矩阵 。 另 外 ， 可 以 使 用 nfcol=c (nrows，ncols) 按 列 填充 和 矩阵。 

举例 来 说 ， 以 下 代码 创建 了 四 幅 图 形 并 将 其 排 布 在 两 行 两 列 中 : 


attach (mtcars) 











。 所 以 ,作为 本 章 的 结尾 ， 下 面 讨 











) 可 以 容易 地 组 合 多 幅 图 形 为 一 幅 总 括 图 形 。 此 时 请 不 要 担 
这 里 我 们 只 关注 组 合 它 们 的 一 般 方 法 。 后 续 各 章 将 讨论 每 类 图 形 的 




















1 

















opar <- par(no.readonly=TRUE) 
par (mfrow=c (2,2)) 
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plot (wt,mpg, main="Scatterplot of wt vs. mpg") 
plot (wt,disp, main="Scatterplot of wt vs. disp") 
hist(wt, main="Histogram of wt") 

boxplot (wt, main="Boxplot of wt") 

par (opar) 

detach (mtcars) 


结果 如 图 3-14 所 示 。 


Scatterplot of wt vs. mpg Scatterplot of wt vs. disp 
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图 3-14 ”通过 par (mfrow=c (2,2)) 组 合 的 四 幅 图 形 


作为 第 二 个 示例 ， 让 我 们 依 三 行 一 列 排 布 三 幅 图 形 。 代 码 如 下 : 


attach (mtcars) 

opar <- par(no.readonly=TRUE) 
par (mfrow=c(3,1)) 

hist (wt) 

hist (mpg) 

hist(disp) 

par (opar) 

detach (mtcars) 





























所 得 图 形 如 图 3-15 所 示 。 请 注意 ， 高 级 绘图 函数 hist () 包含 了 一 个 默认 的 标题 (使 用 
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main="" 可 以 禁用 它 ， 抑 或 使 用 ann=FALSE 来 禁用 所 有 标题 和 标签 )。 
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图 3-15 ”通过 par (mfrow=c (3,1)) 组 合 的 三 幅 图 形 
函数 1ayout () 的 调用 形式 为 layout (mat) ， 其 中 的 mat 是 一 个 和 矩阵， 它 指定 了 所 要 组 合 的 
多 个 图 形 的 所 在 位 置 。 在 以 下 代码 中 ， 一 幅 图 被 置 于 第 1 行 ， 男 两 幅 图 则 被 置 于 第 2 行 : 


attach (mtcars) 
layout (matrix(c(1,1,2,3), 2, 2, byrow = TRUE)) 





























hist (wt) 
hist (mpg) 
hist (disp) 


detach (mtcars) 


结果 如 图 3-16 所 示 。 
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图 3-16 ”使 用 函数 layout () 组 合 的 三 幅 图 形 ， 各 列 宽度 为 默认 值 
为 了 更 精确 地 控制 每 幅 图 形 的 大 小 ， 可 以 有 选择 地 在 layout () 函数 中 使 用 wiaths= 和 








heights= 两 个 参数 。 其 形式 为 : 


D wiaths = 各 列 宽度 值 组 成 的 一 个 向 量 
口 neights = 各 行 高 度 值 组 成 的 一 个 向 量 
相对 宽度 可 以 直接 通过 数值 指定 ， 绝 对 宽度 ( 以 厘米 为 单位 ) 可 以 通过 函数 1cm () 来 指定 。 
在 以 下 代码 中 ， 我 们 再 次 将 一 幅 图 形 置 于 第 1 行 ， 两 幅 图 形 置 于 第 2 行 。 但 第 1 行 中 图 形 的 













































































局 让 








是 第 2 行 中 图 形 高 度 的 二 分 之 一 。 除 此 之 外 ， 右 下 角 图 形 的 宽度 是 左下 角 图 形 宽度 的 三 分 


这 


attach (mtcars) 

Layeut (matrixz(et(tl;m ly 2 3) 2, 27 BYLrOW. Ss TRUE)., 
widths=c(3, 1), heights=c(1, 2)) 

hist (wt) 

hist (mpg) 

hist (disp) 

detach (mtcars) 


所 得 图 形 如 图 3-17 所 示 。 
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图 3-17 使 用 函数 layout () 组 合 的 三 幅 图 形 ， 各 列 宽度 为 指定 值 








如 你 所 见 ，layout () 函数 能 够 让 我 们 轻松 地 探 人 











这 些 子 图 的 相对 大 小 。 请 参考 help (1ayout) 以 了 解 更 多 细节 。 


图 形 布 局 的 精细 控制 








判 最 终 图 形 中 的 子 图 数量 和 摆 放 方式 ， 以 及 


可 能 有 很 多 时 候 , 你 想 通 过 排 布 或 全 加 若干 图 形 来 创建 单 幅 的 、 有 意义 的 图 形 ,这 需要 有 对 
图 形 布 局 的 精细 控制 能 力 。 你 可 以 使 用 图 形 参数 fig= 完 成 这 个 任务 。 代 码 清 单 3-4 通 过 在 散 点 图 





上 添加 两 幅 箱 线 图 ， 创 建 了 单 幅 的 增强 型 
代码 清单 3-4 ”多 幅 图 形 布局 的 精细 控制 


opar <- par (no.readonly=TRUE) 
Bari(fiog=e(t 0 :038 0 -05.87) 
plot (mtcars$Swt, mtcarss$mpg, 
xlab="Miles Per Gallon", 
ylab="Car Weight") 
par fiog=6 (0 O08 ODS 
boxplot (mtcarsswt, 











1), 





pat.(figee(0.69: Ls. O00.“ 0.8) 
boxplot (mtcars$mpg, axes=FALSE) 


图 形 。 结 果 如 图 3-18 所 示 。 





new=TRUE) 
horizontal=TRUE, 


new=TRUE) 


设置 散 点 图 





axes=FALSE 


| 在 右 侧 添加 箱 线 图 





; | 在 上 方 添加 箱 线 图 
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mtext ("Enhanced Scatterplot", side=3, outer=TRUE, line=-3) 


par (opar) 
Enhanced Scatterplot 
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Miles Per Gallon 


图 3-18 ”边界 上 添加 了 两 幅 箱 线 图 的 散 点 图 











要 理解 这 幅 图 的 绘制 原理 ， 请 试想 完整 的 绘图 区 域 : 左下 角 坐 标 为 (0, 0)， 而 右上 角 坐 标 为 
(1, 1)。 图 3-19 是 一 幅 示 意图 。 参 数 fig= 的 取 值 是 一 个 形 如 c (x1，x2，y1l，y2) 的 数值 向 量 。 


(1,1) 
































(0,0) 














图 3-19 ”使 用 图 形 参 数 fig= 指 定位 置 
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第 一 个 fig= 将 散 点 图 设 定 为 占据 横向 范围 0~0.8， 纵 向 范围 0~0.8。 上 方 的 箱 线 图 横向 占据 
0~0.8， 纵 向 0.55~1。 右 侧 的 箱 线 图 横向 占据 0.65~1， 纵 向 0~0.8。fig= 默 认 会 新 建 一 幅 图 形 ， 所 
以 在 添加 一 幅 图 到 一 幅 现 有 图 形 上 时 ， 请 设 定 参 数 new=TRUE。 

我 将 参数 选择 为 0.55 而 不 是 0.8， 这 样 上 方 的 图 形 就 不 会 和 散 点 图 拉 得 太 远 。 类 似 地 ,我 选择 
了 参数 0.65 以 拉 近 右 侧 箱 线 图 和 散 点 图 的 距离 。 你 需要 不 断 尝试 找 到 合适 的 位 置 参 数 。 

















注意 各 独立 子 图 所 需 空间 的 大 小 可 能 与 设备 相关 。 如 果 你 遇 到 了 “Error in plot.new(): figure 
margins too large” 这 样 的 错误 ， 请 尝试 在 整个 图 形 的 范围 内 修改 各 个 子 图 占据 的 区 域 位 
置 和 大 小 。 


你 可 以 使 用 图 形 参 数 fig= 将 若干 图 形 以 任意 排 布 方式 组 合 到 单 幅 图 形 中 。 稍 加 练习 ， 你 就 
可 以 通过 这 种 方法 极其 灵活 地 创建 复杂 的 视觉 呈现 。 

















3.6 ”小结 


本 章 中 , 我 们 回顾 了 创建 图 形 和 以 各 种 格式 保存 图 形 的 方法 。 本 章 的 主体 则 是 关于 如 何 修改 
R 绘 制 的 默认 图 形 ， 以 得 到 更 加 有 用 或 更 吸引 人 的 图 形 。 你 学 习 了 如 何 修 改 一 幅 图 形 的 坐标 轴 、 
字体 、 绘 图 符号 、 线 条 和 颜色 ， 以 及 如 何 添加 标题 、 副 标题 、 标 签 、 文 本 、 图 例 和 参考 线 ， 看 到 
了 如 何 指定 图 形 和 边界 的 大 小 ， 以 及 将 多 幅 图 形 组 合 为 实用 的 单 幅 图 形 。 

本 章 的 焦点 是 那些 可 以 应 用 于 所 有 图 形 的 通用 方法 (第 19 章 的 ggp1lot2 图 形 是 一 个 例外 )。 
后 续 各 章 将 着 眼 于 特定 的 图 形 类 型 。 例 如 ， 第 6 章 介 绍 了 对 单 变量 绘图 的 各 种 方法 ; 对 变量 间 关 
系 绘图 的 方法 将 于 第 11 章 讨论 ; 在 第 19 章 中 , 我 们 则 讨论 高 级 的 绘图 方法 ,包括 显示 多 变量 数据 
的 创新 性 方法 。 

在 其 他 各 章 中 , 我 们 将 会 讨论 对 于 某 些 统计 方法 来 说 特别 实用 的 数据 可 视 化 方法 。 图形 是 现 
代数 据 分 析 的 核心 组 成 部 分 ， 所 以 我 将 尽力 将 它们 整合 到 各 类 统计 方法 的 讨论 中 。 

在 前 一 童 中， 我 们 讨论 了 一 系列 输入 或 导入 数据 到 R 中 的 方法 。 遗 憾 的 是 ， 现 实数 据 极 少 以 
直接 可 用 的 格式 出 现 。 下 一 章 ， 我 们 将 关注 如 何 将 数据 转换 或 修改 为 更 有 助 于 分 析 的 形式 。 









































基本 数据 管理 








本 章 内 容 
口 操纵 日 期 和 缺失 值 





口 选 入 和 丢弃 变量 


D 熟悉 数据 类 型 的 转换 
D 变量 的 创建 和 重 编码 
D 数据 集 的 排序 、 合 并 与 取 子 集 








在 第 2 章 中 , 我 们 讨论 了 多 种 导入 数据 到 R 中 的 方法 。 遗 憾 的 是 , 将 你 的 数据 表示 为 矩阵 或 数 
据 框 这 样 的 矩形 形式 仅仅 是 数据 准备 的 第 一 步 。 这 里 可 以 演绎 Kirk 船 长 在 《星际 迷航 》“ 末 日 决 




















战 的 滋味 ”一 集中 的 台词 
麻烦 的 事 。” 在 我 的 工作 中 
敢 大 胆 地 说 ,多数 需要 处 理 








先 看 一 个 例子 。 
4.1 一 个 示例 

本 人 当前 工作 的 研究 
如 下 。 




















这 完全 验 明 了 我 的 极 客 基 因 ):“ 数 据 是 一 件 麻烦 事 件 非常 非常 
， 有 多 达 60% 的 数据 分 析 时 间 都 花 在 了 实际 分 析 前 数据 的 准备 上 。 我 
E 现 实数 据 的 分 析 师 可 能 都 面临 着 以 某 种 形式 存在 的 类 似 问题 。 让 我 们 





主题 之 一 是 男性 和 女性 在 领导 各 目 企 业 方式 上 的 不 同 。 典 型 的 问题 





口 处 于 管理 岗位 的 男性 和 女性 在 听从 上 级 的 程度 上 是 否 有 所 不 同 ? 



































口 这 种 情况 是 否 依 国家 的 不 同 而 有 所 不 同 ， 或 者 说 这 些 由 性 别 导 致 的 不 同 是 否 普遍 存在 ? 
解答 这 些 问 题 的 一 种 方法 是 让 多 个 国家 的 经 理 人 的 上 司 对 其 服从 程度 打分 , 使 用 的 问题 类 


























3 4 5 


似 于 : 
这 名 经 理 在 作出 人 事 决策 之 前 会 询问 我 的 意见 
1 2 
非常 不 同意 不 同意 


上 


既 不 同意 也 不 反对 。 同意 | 


旷 


结果 数据 可 能 类 似 于 表 4-1。 各 行 数据 代表 了 某 个 经 理 人 的 上 司 对 他 的 评分 。 
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表 4-1 ”领导 行为 的 性 别 差异 





经 理 人 日 期 籍 性 别 年 龄 q1 q2 q3 q4 q5 
1 10/24/14 US M 32 5 4 5 5 3 
2 10/28/14 US F 45 3 5 2 5 5 
3 10/01/14 UK F 25 3 5 5 5 2 
4 10/12/14 UK M 39 3 3 4 
5 05/01/14 UK F 99 2 2 1 2 1 


在 这 里 ， 每 位 经 理 人 的 上 司 根据 与 服从 权威 相关 的 五 项 陈述 (ql 到 gq5 ) 对 经 理 人 进行 评分 。 
例如 , 经 理 人 1 是 一 位 在 美国 工作 的 32 岁 男性 ， 上 司 对 他 的 评价 是 惯 于 顺从 ， 而 经 理 人 5 是 一 位 在 
英国 工作 的 , 年龄 未 知 (99 可 能 代表 缺失 ) 的 女性 ， 服 从 程度 评分 较 低 。 日 期 一 栏 记录 了 进行 评 
分 的 时 间 。 

一 个 数据 集中 可 能 含有 几 十 个 变量 和 成 千 上 万 的 观测 ， 但 为 了 简化 示例 ， 我 们 仅 选 取 了 5 行 
10 列 的 数据 。 男 外 ,我们 已 将 关于 经 理 人 服从 行为 的 问题 数量 限制 为 5。 在 现实 的 研究 中 ， 你 很 
可 能 会 使 用 10 到 20 个 类 似 的 问题 来 提高 结果 的 可 靠 性 和 有 效 性 。 可 以 使 用 代码 清单 4-1 中 的 代码 
创建 一 个 包含 表 4-1 中 数据 的 数据 框 。 


代码 清单 4-1 创建 leaaership 数 据 框 
manager <- cl(1, 2, 3, 4, 5) 
日 站 和 CO OB 下 028708 LONL/O8Yy WLO E22/AOBY, MSI/LAOQNY) 










































































on ye a Og RR 

JENder. <= CM TFT, ME", M™, ME™) 

age < (3 40-2957 ,39 39 

Gl. < (By 3 3 2 

2 

Ud (By. Do Dri dp TL) 

TLE 0 DY NA Z) 

dS = (BD D7 ZH NA TE) 

leadership <- data.frame (manager, date, country, gender, age, 


ql, q2, gq3, q4, q5, stringsAsFactors=FALSE) 


为 了 解决 感 兴趣 的 问题 ， 你 必须 首先 解决 一 些 数据 管理 方面 的 问题 。 这 里 列 出 其 中 一 部 分 。 

口 五 个 评分 (q1 到 q5 ) 需要 组 合 起 来 ， 即 为 每 位 经 理 人 生成 一 个 平均 服从 程度 得 分 。 

口 在 问卷 调查 中 ， 被 调查 者 经 常会 跳 过 某 些 问题 。 例 如 ， 为 4 号 经 理 人 打分 的 上 司 跳 过 了 问 
题 4 和 问题 5。 你 需要 一 种 处 理 不 完整 数据 的 方法 ， 同 时 也 需要 将 99 岁 这 样 的 年 龄 值 重 编 
人 码 为 缺失 值 。 

口 一 个 数据 集中 也 许 会 有 数 百 个 变量 ,但 你 可 能 仅 对 其 中 的 一 些 感 兴趣 。 为 了 简化 问题 ， 

我 们 往往 希望 创建 一 个 只 包含 那些 感 兴趣 变量 的 数据 集 。 

口 既往 研究 表明 ， 领 导 行为 可 能 随 经 理 人 的 年 龄 而 改变 ， 二 者 存在 函数 关系 。 要 检验 这 种 

观点 ， 你 希望 将 当前 的 年 龄 值 重 编码 为 类 别 型 的 年 龄 组 ( 例如 年 轻 、 中 年 、 年 长 )。 

口 领导 行为 可 能 随时 间 推 移 而 发 生 改变 。 你 可 能 想 重点 研究 最 近 全 球 金融 危机 期 间 的 服从 
行为 。 为 了 做 到 这 一 点 ， 你 希望 将 研究 范围 限定 在 某 一 个 特定 时 间 段 收集 的 数据 上 ( 比 
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如 ，2009 年 1 月 1 日 到 2009 年 12 月 31 日 )。 
我 们 将 在 本 章 中 逐个 解决 这 些 问 题 , 同时 完成 如 数据 集 的 组 合 与 排序 这 样 的 基本 数据 管理 任 
务 。 然 后 ， 在 第 $ 章 ， 我 们 会 讨论 一 些 更 为 高 级 的 话题 。 


4.2 创建 新 变量 

在 典型 的 研究 项 目 中 , 你 可 能 需要 创建 新 变量 或 者 对 现 有 的 变量 进行 变换 。 这 可 以 通过 以 下 
形式 的 语句 来 完成 : 

变量 名 <- 表达 式 


以 上 语句 中 的 “表达 式 ” 部 分 可 以 包含 多 种 运算 符 和 函数 。 表 4-2 列 出 了 R 中 的 算术 运算 符 。 
算术 运算 符 可 用 于 构造 公式 ( formula )。 























表 4-2 算术 运算 符 





运 算 符 描述 
加 

减 

乘 

/ 除 

“或 x* 求 宪 

XSSYy 


求 余 (xmody )。5%%2 的 结果 为 1 
x%/%y 整数 除法 。5%/82 的 结果 为 2 








假设 你 有 一 个 名 为 myaata 的 数据 框 , 其 中 的 变量 为 x1 和 x2, 现在 你 想 创建 一 个 新 变量 sumx 
存储 以 上 两 个 变量 的 加 和 ， 并 创建 一 个 名 为 meanx 的 新 变量 存储 这 两 个 变量 的 均值 。 如 果 使 用 
代码 : 

sumx <- Xl + X2 

meanx <- (xl] + x2)/2 


你 将 得 到 一 个 错误 ， 因 为 R 并 不 知道 x1 和 x2 来 自 于 数据 框 myaata。 如 果 你 转 而 使 用 代码 : 


sumx <- mydqataSx1 + mydatasx2 
meanx <- (mydatas$sxl + mydqataSx2) /2 


语句 可 成 功 执行 ,但 是 你 只 会 得 到 一 个 数据 框 ( mydata ) 和 两 个 独立 的 向 量 ( sumx 和 meanx )。 
这 也 许 并 不 是 你 真 的 想 要 的 。 因 为 从 根本 上 说 ,你 希望 将 两 个 新 变量 整合 到 原始 的 数据 框 中 。 代 
码 清单 4-2 提 供 了 三 种 不 同 的 方式 来 实现 这 个 目标 ， 有 具体 选择 哪 一 个 由 你 决定 ， 所 得 结果 都 是 相 
同 的 。 


代码 清单 4-2 创建 新 变量 
mydata<-data.frame (xl1 
汉 过 

































































中 人 
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mydata$ssumx <- mydatas$sxl + mydatasx2 
mydata$smeanx <- (mydatas$xl + mydatasx2)/2 


attach (mydata) 

mydata$sumx <- xXx] + X2 
mydatasmeanx <- (xl + x2)/2 
detach (mydata) 





mydata <- transform(mydata, 


sumx 这 广泛 2 


{Xl FX) 2) 


meanx 


我 个 人 倾向 于 第 三 种 方式 ， 即 transform() 函数 的 一 个 示例 。 这 种 方式 简化 了 按 需 创建 新 
变量 并 将 其 保存 到 数据 框 中 的 过 程 。 


4.3 变量 的 重 编码 


重 编码 涉及 根据 同一 个 变量 和 /或 其 他 变量 的 现 有 值 创 建新 值 的 过 程 。 举 例 来 说 ， 你 可 能 想 : 
口 将 一 个 连续 型 变量 修改 为 一 组 类 别 值 ; 

口 将 误 编 码 的 值 蔡 换 为 正确 值 ; 

口 基于 一 组 分 数 线 创 建 一 个 表示 及 格 /不 及 格 的 变量 。 

要 重 编码 数据 ， 可 以 使 用 R 中 的 一 个 或 多 个 逻辑 运算 符 ( 见 表 4-3 )。 逻 辑 运 算 符 表达 式 可 返 


回 TRUE 或 FALSE。 





















































表 4-3 ”逻辑 运算 符 























运 算 符 描 述 
< 小 于 
<= 小 于 或 等 于 
> 天 十 
>= 大 于 或 等 于 
== 严格 等 于 ” 
1 不 等 于 
!x 非 x 
下 光 x 或 y 
X & Y x 和 ly 
isTRUE (x) 测试 x 是 否 为 TRUE 


























外 类 似 于 其 他 科学 计算 语言 ， 在 R 中 比较 浮 点 型 数值 时 请 慎 用 ==， 以 防 出 现 误 判 。 详 情 参 考 “R FAQ”7.31 节 。 
一 一 译 者 注 
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不 妨 假设 你 希望 将 leadership 数 据 集中 经 理 人 的 连续 型 年 龄 变量 age 重 编码 为 类 别 型 变量 
agecat (Young、Middle Aged、Elder )。 首 先 ， 必 须 将 99 岁 的 年 龄 值 重 编码 为 缺失 值 ， 使 用 
的 代码 为 : 

leadership$age[leaderships$sage == 99] <- NA 


语句 variable[condition] <- expression 将 仅 在 conaqition 的 值 为 TRUE 时 执行 赋值 。 
在 指定 好 年 龄 中 的 缺失 值 后 ， 你 可 以 接着 使 用 以 下 代码 创建 agecat 变 量 : 
leaderships$agecat [leaderships$age 75] <- "Elder" 

leaderships$sagecat [leadershipS$age >= 55 & 


> 
leaderships$age <= 75] <- "Middle Aged" 
leaderships$agecat [leadership$age < 55] <- "Young" 


你 在 leadershipsagecat 中 写 上 了 数据 框 的 名 称 ， 以 确保 新 变量 能 够 保存 到 数据 框 中 。 
(我 将 中 年 人 (Midgdle Aged ) 定义 为 55 到 75 岁 ， 这 样 不 会 让 我 感觉 自己 是 个 老 古董 。) 请 注意 ， 
如 果 你 一 开始 没 把 99 重 编码 为 age 的 缺失 值 ， 那 么 经 理 人 5 就 将 在 变量 agecat 中 被 错误 地 赋值 为 
“老年 人 ” (Elder )。 

这 段 代 码 可 以 写成 更 紧凑 的 : 


leadership <- within(leadership,t 
agecat <- NA 





















































agecat[age > 75] <—- "Elder" 
agecat[age >= 55 & age <= 75] <- "Middle Aged" 
agecat[age < 55] = MYOUNG™ }) 





函数 within() 与 滑 数 with() 类似 ( 见 2.2.4 节 ),， 不 同 的 是 它 允许 你 修改 数据 框 。 首 先 ， 创 
建 了 agecat 变 量 , 并 将 每 一 行 都 设 为 缺失 值 。 括 号 中 剩 下 的 语句 接 下 来 依次 执行 。 请 记 住 agecat 
现在 只 是 一 个 字符 型 变量 ， 你 可 能 更 希望 像 2.2.5 节 讲解 的 那样 把 它 转 换 成 一 个 有 序 型 因子 。 

若干 程序 包 都 提供 了 实用 的 变量 重 编码 函数 ， 特 别 地 ，cazr 包 中 的 recode () 函数 可 以 十 分 
简便 地 重 编码 数值 型 、 字 符 型 向 量 或 因子 。 而 aogBy 包 提供 了 另外 一 个 很 受 欢 迎 的 函数 
recodevar () 。 最 后 ，R 中 也 自 带 了 cut () ， 可 将 一 个 数值 型 变量 按 值 域 切 割 为 多 个 区 间 ， 并 返 
回 一 个 因子 。 


4.4 变量 的 重 命 名 


如 果 对 现 有 的 变量 名 称 不 满意 , 你 可 以 交互 地 或 者 以 编程 的 方式 修改 它们 。 假设 你 希望 将 变 
量 名 manager 修 改 为 nanagerID， 并 将 aate 修 改 为 testDate， 那 么 可 以 使 用 语句 ， 
























































fix(leadership) 


来 调用 一 个 交互 式 的 编辑 器 。 然 后 你 单 击 变 量 名 , 然后 在 弹出 的 对 话 框 中 将 其 重 命名 ( 见 图 4-1 )。 
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如 Rconsole (64-bit) 





| File Edit Misc Package 


> fix(leadership) 





民 Data Editor 


Help 





managerID |date country |gender 


| 1|1: |i10/24/2008|vs 


i 











|10/1/2008 [vx 
|10/12/2008|UK 
5/1/2009 














民 Variable editor 


variable [ managerlD 


type © numeric character 















































图 4-1 ”使 用 fix() 函数 交互 式 地 进行 变量 重 命名 
若 以 编程 方式 ， 可 以 通过 names () 函数 来 重 命名 变量 。 例 如 : 
names (leadership) [2] <- "testDate" 

将 重 命 名 date 为 testDate， 就 像 以 下 代码 演示 的 一 样 : 


> names (leadership) 
[1] "manager" "date" "country" "gender" "age" aE" 2 
[8 "Ea 4 Poy 

> names (leadership) [2] <- "testDate" 

> leadership 
manager testDate country gender age ql q2 q3 q4 a5 























1 1 10/24/08 US M 32 杰 - -二 沪 滞 

2 2 10/28/08 US F 45 5D -297 :入 

2 3 “L017/08 UK 本 

4 4 10/12/08 UK M 39 3 3 4 NA NA 

Ss 5 SHLAAO9 UK E99 过 2 

以 类 似 的 方式 : 

names (leadership) [6:10] <- c("iteml", "item2", "item3", "item4", "item5") 


将 重 命名 ql 到 q5 为 item1 到 item5。 

最 后 ，plyr 包 中 有 一 个 rename () 函数 ， 可 用 于 修改 变量 名 。 这 个 函数 默认 并 没有 被 安装 ， 
所 以 你 首先 要 使 用 命令 instal1.packages ("plyr") 对 之 进行 安装 。 

rename () 函数 的 使 用 格式 为 : 


rename (dataframe, cl(oldname="newname", oldname="newname",...)) 


这 里 是 一 个 示例 : 
library (plyr) 
leadership <- rename (leadership, 
c(manager="managerID", date="testDate")) 
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plyr 包 拥有 一 系列 强大 的 数据 集 操作 函数 ， 你 可 以 在 http://had.co.nz/plyr 获 得 更 多 信息 。 


4.5 缺失 值 


在 任何 规模 的 项 目 中 , 数据 都 可 能 由 于 未 作答 问题 .设备 故障 或 误 编 码 数 据 的 缘故 而 不 完整 。 
在 R 中 ， 缺 失 值 以 符号 NA (Not Available， 不 可 用 ) 表示 。 与 SAS 等 程序 不 同 ，R 中 字符 型 和 数值 
型 数据 使 用 的 缺失 值 符号 是 相同 的 。 

R 提 供 了 一 些 函 数 , 用 于 识别 包含 缺失 值 的 观测 。 函数 is .na () 允许 你 检测 缺失 值 是 否 存在 。 
假设 你 有 一 个 向 量 : 

y <- c(1, 2, 3, NA) 


然后 使 用 函数 : 


is.naly) 






































将 返回 c (FALSE,， FALSE, FALSE, TRUE)。 

请 注意 is .na () 函数 是 如 何 作用 于 一 个 对 象 上 的 。 它 将 返回 一 个 相同 大 小 的 对 象 , 如果 某 个 
元 素 是 缺失 值 ， 相 应 的 位 置 将 被 改写 为 TRUE， 不 是 缺失 值 的 位 置 则 为 FALSE。 代 码 清单 4-3 将 此 
函数 应 用 到 了 我 们 的 leadership 数 据 集 上 。 


代码 清单 4-3 ”使 用 is .na() 函数 

> is.na(leadership[,6:10]) 
ql G2 G3 G4 GD 
FALSE FALSE FALSE FALSE FALSE 
FALSE FALSE FALSE FALSE FALSE 
FALSE FALSE FALSE FALSE 
FALSE FALSE FALSE TRUE TRUE 
FALSE FALSE FALSE FALSE FALSE 


这 里 的 leadership[,6:10] 将 数据 框 限 定 到 第 6 列 至 第 10 列 ， 接 下 来 is .na() 识 别 出 了 缺 
失 值 。 

当 你 在 处 理 缺 失 值 的 时 候 , 你 要 一 直 记 得 两 件 重要 的 事情 。 第 一 , 缺失 值 被 认为 是 不 可 比较 
的 ， 即 便 是 与 缺失 值 自身 的 比较 。 这 意味 着 无 法 使 用 比较 运算 符 来 检测 缺失 值 是 否 存在 。 例 如 ， 
逻辑 测试 myvar == NA 的 结果 永远 不 会 为 DRUE。 作 为 奉 代 ， 你 只 能 使 用 处 理 缺 失 值 的 函数 (如 
本 节 中 所 述 的 那些 ) 来 识别 出 R 数 据 对 象 中 的 缺失 值 。 

第 二 ，R 并 不 把 无 限 的 或 者 不 可 能 出 现 的 数值 标记 成 缺失 值 。 再 次 地 ， 这 和 其 余 像 SAS 之 类 
类 似 的 程序 处 理 这 类 数值 的 方式 所 不 同 。 正 无 穷 和 负 无 穷 分 别 用 Inf 和 -Inf 所 标记 。 因 此 5/0 返 
回 Inf。 不 可 能 的 值 ( 比如 说 ，sin (Inf) ) 用 NaN 符 号 来 标记 (notanumber， 不 是 一 个 数 )。 若 
要 识别 这 些 数值 ， 你 需要 用 到 is .infinite() 或 is.nan()。 


4.5.1 重 编码 某 些 值 为 缺失 值 
如 4.3 节 中 演示 的 那样 ， 你 可 以 使 用 赋值 语句 将 某 些 值 重 编码 为 缺失 值 。 在 我 们 的 
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4.5 缺失 值 Cs) 








leadership 示 例 中 ,缺失 的 年 龄 值 被 编码 为 9。 在 分 析 这 一 数据 集 之 前 ， 你 必须 让 R 明 白 本 例 
中 的 99 表 示 缺 失 值 (否则 这 些 样本 的 平均 年 龄 将 会 高 得 离谱 )。 你 可 以 通过 重 编 码 这 个 变量 完成 
这 项 工作 : 

leadership$sage[leaderships$age == 99] <- NA 

任何 等 于 99 的 年 龄 值 都 将 被 修改 为 NA。 请 确保 所 有 的 缺失 数据 已 在 分 析 之 前 被 妥善 地 编码 为 
缺失 值 ， 否 则 分 析 结 果 将 失去 意义 。 


4.5.2 ”在 分 析 中 排除 缺失 值 


确定 了 缺失 值 的 位 置 以 后 , 你 需要 在 进一步 分 析 数 据 之 前 以 某 种 方式 删除 这 些 缺 失 值 。 原 因 
是 ， 含 有 缺失 值 的 算术 表达 式 和 函数 的 计算 结果 也 是 缺失 值 。 举 例 来 说 ， 考 虑 以 下 代码 : 
































2, NA, 3) 
y <- x[1] + x[2] + x[3] + x[4] 
z <- sum(x) 


X <- Cl(1, 


由 于 x 中 的 第 3 个 元 素 是 缺失 值 ， 所 以 y 和 z 也 都 是 NA( 缺失 值 )。 

好 在 多 数 的 数值 函数 都 拥有 一 个 na .rm=TRUE 选 项 ， 可 以 在 计算 之 前 移 除 缺 失 值 并 使 用 剩余 
值 进行 计算 : 

x <- c(1, 2, NA, 3) 

y <- sum(x, na.rm=TRUE) 


这 里 ，y 等 于 6。 

在 使 用 函数 处 理 不 完整 的 数据 时 ， 请 务必 查阅 它们 的 帮助 文档 ( 例如 ，nelp (sum) )， 检查 
函数 是 如 何 处 理 缺 失 数据 的 。 函 数 sum () 只 是 我 们 将 在 第 5 章 中 讨论 的 众多 函数 之 一 ， 使 用 
函数 可 以 灵活 而 轻松 地 转换 数据 。 

你 可 以 通过 函数 na.omit () 移 除 所 有 含有 缺失 值 的 观测 。na.omit () 可 以 删除 所 有 含有 缺 
失 数 据 的 行 。 在 代码 清单 4-4 中 ， 我 们 将 此 函数 应 用 到 了 leadership 数 据 集 上 。 


代码 清单 4-4 ”使 用 na .omit () 删 除 不 完整 的 观测 


> leadership 





























这 些 
这 些 





manager date country gender age ql qdq2 d3 q4 q5 ee 
站 1 10/24/08 US M 32 5 4 5 5 5 含有 缺失 数据 的 数据 框 
2 2 10/28/08 US On 2 
3 3 10/01/08 UK 下 9 
4 4 10/12/08 UK M 39 3 3 4NANA 
全 ss57/01769 UK ”NA 这 12 证。 这 定 


> newdata <- na.omit (leadership) 
> newdata 


manager date country gender age ql qdq2 d3 q4 q5 S 
1 1 10/24/08 US M 32 5 4 5 5 5 仅 含 完整 观测 的 数据 框 
2 2 10/28/08 US Fe SY UB? 2 FD. 4 
3 3 10/01/08 UK 7 轴 
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在 结果 被 保存 到 newdata 之 前 ， 所 有 包含 缺失 数据 的 行 均 已 从 1 eadership 中 删除 。 
删除 所 有 含有 缺失 数据 的 观测 〈 称 为 行 删除 ，listwise deletion ) 是 处 理 不 完整 数据 集 的 若干 




















手段 之 


。 如 果 只 有 少数 缺失 值 或 者 缺失 值 仅 集中 于 一 小 部 分 观测 中 , 行 删除 不 失 为 解决 缺失 值 


问题 的 一 种 优秀 方法 。 但 如 果 缺 失 值 遍 布 于 数据 之 中 ,或 者 一 小 部 分 变量 中 包含 大 量 的 缺失 数据 ， 


行 删除 可 
法 。 下 面 








能 会 剔除 相当 比例 的 数据 。 我 们 将 在 第 18 章 中 探索 若干 更 为 复杂 精妙 的 缺失 值 处 理 方 
， 让 我 们 谈 谈 日 期 值 。 





4.6 日 期 值 


日 期 


as.Date 














值 通常 以 字符 串 的 形式 输入 到 R 中 ， 然 后 转化 为 以 数值 形式 存储 的 日 期 变量 。 了 数 
() 用 于 执行 这 种 转化 。 其 语法 为 as .Date (x,， "input_format")， 其 中 x 是 字符 型 数 

















据 ，input_format 则 给 出 了 用 于 读 入 日 期 的 适当 格式 ( 见 表 4-4 )。 
表 4-4 日 期 格式 








符 ”号 含 义 示例 
0 数字 表示 的 日 期 (0~31) 01~31 
a 缩写 的 星期 名 Mon 
讼 非 缩 写 星 期 名 Monday 
“mh 月 份 (00~12) 00~12 
Db 缩写 的 月 份 Jan 
SB 非 缩写 月 份 January 
$y 两 位 数 的 年 份 07 
BY 四 位 数 的 年 份 2007 








日 期 值 的 默认 输入 格式 为 yyyy-mm-d4d。 语 句 : 
mydates <- as.Date(c("2007-06-22", "2004-02-13")) 
将 默认 格式 的 字符 型 数据 转换 为 了 对 应 日 期 。 相 反 ， 


strDates <- c("01/05/1965", "08/16/1975") 
dates <- as.Date(strDates, "%m/%d/%Y") 


则 使 用 mm/4qAyyyy 的 格式 读 取 数据 。 
在 leadership 数 据 集中 ,日 期 是 以 mm/dd/yy 的 格式 编码 为 字符 型 变量 的 。 因 此 : 






































myformat <- "%m/%d/%y" 
leaderships$sdate <- as.Date(leaderships$sdate, myformat) 














使 用 指定 格式 读 取 字 符 型 变量 ， 并 将 其 作为 一 个 日 期 变量 替换 到 数据 框 中 。 这 种 转换 一 旦 完成 ， 

















你 就 可 以 使 用 后 续 各 章 中 讲 到 的 诸多 分 析 方 法 对 这 些 日 期 进行 分 析 和 绘图 。 





有 两 个 函数 对 于 处 理 时 间 惟 数据 特别 实用 。sys.pate() 可 以 返回 当天 的 日 期 ， 而 aate() 














4.6 日 期 值 27 





则 返回 当前 的 日 斯 和 时 间 。 我 写 下 这 上段 文字 的 时 间 是 2014 年 11 月 27 日 下 午 1:21。 所 以 执行 这 些 也 
数 的 结果 是 : 

> Sys.Date() 

[1] "2014-11-27" 


> date() 
[4 EE"NOW .27 4382154.2014" 


你 可 以 使 用 函数 format (x，format="output_format") 来 输出 指定 格式 的 日 期 值 ， 并 且 
可 以 提取 日 期 值 中 的 某 些 部 分 : 

> today <- Sys.Date!() 

> format (today, format="%B %d %Y") 

[1] "November 27 2014" 


> format (today, format="%A") 
[1] "Thursday" 


format () 函数 可 接受 一 个 参数 (本 例 中 是 一 个 日 期 ) 并 按 某 种 格式 输出 结果 ( 本 例 中 使 用 
了 表 4-4 中 符号 的 组 合 )。 这 里 最 重要 的 结果 是 ， 距 离 周末 只 有 两 天 时 间 了 1! 

R 的 内 部 在 存储 日 期 时 ， 是 使 用 自 1970 年 1 月 1 日 以 来 的 天 数 表 示 的 ， 更 早 的 日 期 则 表示 为 负 
数 。 这 意味 着 可 以 在 日 期 值 上 执行 算术 运算 。 例 如 : 



































> startdate <- as.Date("2004-02-13") 
> enddate <- as.Date("2011-01-22") 
> days <- enddate - startdate 
> days 

Time difference of 2535 days 


显示 了 2004 年 2 月 13 日 和 2011 年 1 月 22 日 之 间 的 天 数 。 
最 后 ， 也 可 以 使 用 函数 aifftime () 来 计算 时 间 间 隔 ， 并 以 星期 、 天 、 时 、 分 、 秒 来 表示 。 
假设 我 出 生 于 1956 年 10 月 12 日 ， 我 现在 有 多 大 呢 ? 
> today <- Sys.Date() 
S40 <- as.Date("1956-10-12") 


> difftime(today, dob, units="weeks") 
Time difference of 3033 weeks 


很 明显 ， 我 有 3033 周 这 么 大 ， 谁 知道 呢 ? 最 后 一 个 小 测验 : 猜 猜 我 生 于 星期 几 ? 


4.6.1 将 日 期 转换 为 字符 型 

你 同样 可 以 将 日 期 变量 转换 为 字符 型 变量 。 函 数 as .character () 可 将 日 期 值 转换 为 字 
符 型 : 

strDates <- as.character (dates) 


进行 转换 后 ， 即 可 使 用 一 系列 字符 处 理 函 数 处 理 数据 ( 如 取 子 集 、 替 换 、 连 接 等 )。 我们 将 
在 第 5 章 中 详 述 字符 处 理 函 数 。 














游 


本 数据 管理 





4.6.2 ”更 进一步 


要 了 解 字 符 型 数据 转换 为 日 期 的 更 多 细节 ， 请 查看 help (as .Date) 和 help(strftime) 。 
要 了 解 更 多 关于 日 期 和 时 间 格 式 的 知识 ， 请 参考 help (IS0datetime)。1lubridate 包 中 包含 了 





提供 了 复杂 的 历法 操作 功能 ， 


4.7 ”类 型 转换 


在 上 节 中 ， 我 们 讨论 了 将 字符 数据 转换 为 日 期 值 以 及 逆向 转换 的 方法 。R 中 提供 了 一 系列 用 
来 判断 某 个 对 象 的 数据 类 型 和 将 其 转换 为 男 一 种 数据 类 型 的 函数 。 


R 与 其 他 统计 编程 语言 有 着 类 似 的 数据 类 





























支持 工作 日 、 周 末 以 及 假期 。 





义 





你 需要 对 日 期 进行 复杂 的 计算 


t 了 大 量 的 日 期 处 理 函 数 ， 可 以 同时 处 理 多 个 时 区 ， 并 


许多 简化 日 期 处 理 的 函数 ,可 以 用 于 识别 和 解析 日 期 一 时 间 数 据 , 抽取 日 期 一 时 间 成 分 ( 例如 年 
份 、 月 份 、 日 期 等 )， 以 及 对 日 期 一 时 间 值 进行 算术 运算 。 如 引 
那么 cimeDate 包 可 能 会 有 帮助 。 它 提 信 





日 





型 转换 方式 。 举 例 来 说 ， 向 一 个 数值 型 向 量 中 添加 


一 个 字符 串 会 将 此 向 量 中 的 所 有 元 素 转换 为 字符 型 。 你 可 以 使 用 表 4-5 中 列 出 的 函数 来 判断 数据 
的 类 型 或 者 将 其 转换 为 指定 类 型 。 








表 4-5 ”类 型 转换 函数 














判 断 转 换 
is.numeric() as.numeric() 
is.character() as.character() 
is.vector() as.vector() 
is.matrix() as.matrix() 
is.data.frame() as.data.frame() 
is.factor() as.factor() 
is.logical() as.logical() 

名 为 is .datatype() 这 样 的 函数 返回 TRUE 或 FALSE, 而 as .datatype () 这 样 的 函数 则 将 其 
参数 转换 为 对 应 的 类 型 。 代 码 清 单 4-5 提 供 了 一 个 示例 。 
代码 清单 4-5 ”转换 数据 类 型 


> ed 


了 


2 


> 
> 


> 





> is.vectorl(a 





a 
1 3 


is.numeric(a) 


TRUE 


is.vector(a 


TRUE 


a 
"1 


"on 


) 


m3n 


is.numeric(a) 





FALSE 


) 


a <- as.character (a) 


4.9 ”数据 集 的 合并 79 





[1] TRUE 
> is.character(a) 
[并 TRUE 


当 和 第 5 章 中 讨论 的 控制 流 ( 如 if-then ) 结合 使 用 时 ，is .aatatype() 这 样 的 函数 将 成 为 
一 类 强大 的 工具 ， 即 允许 根据 数据 的 具体 类 型 以 不 同 的 方式 处 理 数据 。 另 外 ， 某 些 R 函 数 需要 接 
受 某 个 特定 类 型 (字符 型 或 数值 型 ,矩阵 或 数据 框 ) 的 数据 ，as .datatype () 这 类 函数 可 以 让 
你 在 分 析 之 前 先行 将 数据 转换 为 要 求 的 格式 。 


4.8 数据 排序 


有 些 情况 下 ,查看 排序 后 的 数据 集 可 以 获得 相当 多 的 信息 。 例 如 ,哪些 经 理 人 最 具 服从 意识 ? 
在 R 中 ， 可 以 使 用 order () 函数 对 一 个 数据 框 进行 排序 。 默 认 的 排序 顺序 是 升序 。 在 排序 变量 的 
前 边 加 一 个 减 号 即 可 得 到 降序 的 排序 结果 。 以 下 示例 使 用 1eadership 演 示 了 数据 框 的 排序 。 

语句 : 

newdata <- leadershiplorder (leaderships$age),!] 


创建 了 一 个 新 的 数据 集 ， 其 中 各 行 依 经 理 人 的 年 龄 升序 排序 。 语 句 : 


attach (leadership) 
newdata <- leadershipl[order (gender, age),] 
detach (leadership) 


则 将 各 行 依 女性 到 男性 、 同 样 性 别 中 按 年 龄 升序 排序 。 
最 后 ， 
attach (leadership) 


newdata <-leadershipl[lorder (gender, -age),] 
detach (leadership) 


将 各 行 依 经 理 人 的 性 别 和 年 龄 降序 排序 。 


4.9 数据 集 的 合并 

如 果 数 据 分 散在 多 个 地 方 ,你 就 需要 在 继续 下 一 步 之 前 将 其 合并 。 本 节 展 示 了 向 数据 框 中 添 
加 列 (变量 ) 和 行 (观测 ) 的 方法 。 
4.9.1 向 数 据 框 添加 列 


要 横向 合并 两 个 数据 框 ( 数据 集 )， 请 使 用 merge () 函数 。 在 多 数 情 况 下 ， 两 个 数据 框 是 通 
过 一 个 或 多 个 共有 变量 进行 联结 的 〈 即 一 种 内 联结 ，inner join )。 例 如 : 
total <- merge(dataframeA, dataframeB, by="ID") 


将 dataframeA 和 dataframeB 按 照 有 DD 进行 了 合并 。 类 似 地 ， 
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total <- merge(dataframeA, dataframeB, by=c("ID","Country")) 


将 两 个 数据 框 按 照 ID 和 country 进 行 了 合并 。 类 似 的 横向 联结 通常 用 于 向 数 据 框 中 添加 
变量 。 








用 cbina() 进 行 横向 合并 
如 果 要 直接 横向 合并 两 个 矩阵 或 数据 框 , 并 且 不 需要 指定 一 个 公共 索引 , 那么 可 以 直接 使 
用 cbina() 函数 : 
ET 
这 个 函数 将 横向 合并 对 象 A 和 对 象 B。 为 了 让 它 正常 工作 ， 每 个 对 象 必须 拥有 相同 的 行 数 ， 
以 同 顺 序 排 序 。 


4.9.2 ”向 数据 框 添加 行 
要 纵向 合并 两 个 数据 框 ( 数据 集 )， 请 使 用 rbina () 函数 : 


total <- rbind(dataframeA, dataframeB) 

两 个 数据 框 必须 拥有 相同 的 变量 ,不 过 它们 的 顺序 不 必 一 定 相 同 。 如 果 adataframeA 中 拥有 
dataframeB 中 没有 的 变量 ， 请 在 合并 它们 之 前 做 以 下 某 种 处 理 : 

口 删除 aataframea 中 的 多 余 变量 ; 

口 在 dataframeB 中 创建 追加 的 变量 并 将 其 值 设 为 NA( 缺失 )。 

纵向 联结 通常 用 于 向 数据 框 中 添加 观测 。 


4.10 数据 集 取 子 集 


R 拥 有 强大 的 索引 特性 ， 可 以 用 于 访问 对 象 中 的 元 素 。 也 可 利用 这 些 特性 对 变量 或 观测 进行 
选 人 和 排除 。 以 下 几 节 演示 了 对 变量 和 观测 进行 保留 或 删除 的 若干 方法 。 


4.10.1 先入 (保留 变量 

从 一 个 大 数据 集中 选择 有 限 数量 的 变量 来 创建 一 个 新 的 数据 集 是 常 有 的 事 。 在 第 2 章 中 ， 数 
据 框 中 的 元 素 是 通过 dataframe[row indices，column indices] 这 样 的 记号 来 访问 的 。 你 
可 以 沿用 这 种 方法 来 选择 变量 。 例 如 : 

newdata <- leadership[, c(6:10)] 


从 leadership 数 据 框 中 选择 了 变量 ql1 、q2、q3 、q4 和 aq5， 并 将 它们 保存 到 了 数据 框 newdata 
中 。 将 行 下 标 留 空 (，) 表示 默认 选择 所 有 行 。 语 人 句 : 


myvars <- (ngLl"; "G2 到 "G3 下 "gq4d", "aq5") 
newdata <-leadership[lmyvars] 
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实现 了 等 价 的 变量 选择 。 这 里 ,，( 引号 中 的 ) 变量 名 充当 了 列 的 下 标 ， 因 此 选择 的 列 是 相 
同 的 。 
最 后 ， 其 实 你 可 以 写 : 


myvars <- paste("q", 1:5, sep="") 
newdata <- leadership[myvars] 


本 例 使 用 paste () 函数 创建 了 与 上 例 中 相同 的 字符 型 向 量 。paste () 函数 将 在 第 5 章 中 讲解 。 


4.10.2 ”剔除 (丢弃 ) 变量 


剔除 变量 的 原因 有 很 多 。 举 例 来 说 ， 如 果 某 个 变量 中 有 很 多 缺失 值 ， 你 可 能 就 想 在 进一步 分 
析 之 前 将 其 竺 弃 。 下 面 是 一 些 剔 除 变量 的 方法 。 
你 可 以 使 用 i 看 名 : 


myvars <- names (leadership) ging c("q3", "gq4") 
newdata <- leadershipl[l!myvars] 


剔除 变量 sa3 和 Ga4。 为 了 理解 以 上 语句 的 原理 ， Tn 它 拆 解 如 下 。 
(1) names (leadership) 生成 了 一 个 包含 所 有 变量 名 的 字符 型 向 量 : 
c("managerID", "testDate","country","gender","age", "gql", "gq2","g3","g4","q5")o 
(2) names (leadership) %ing c("q3"，"q4") 返 回 了 一 个 逻辑 型 向 量 
names (leadership) 中 每 个 匹配 q3 或 a4 的 元 素 的 值 为 TRUE, 反之 为 FALSE: c (FALSE, FALSE, 
FALSE, FALSE, FALSE, FALSE, FALSE, TRUE, TRUE, FALSE)。 
(3) 运算 符 非 ( ! ) 将 逻辑 值 反 转 : c (TRUE, TRUE, TRUE, TRUE, TRUE, TRUE, TRUE, FALSE, 
FALSE, TRUE)。 




















































































































(4) leadershipl[c (TRUE, TRUE, TRUE, TRUE, TRUE, TRUE, TRUE, FALSE, FALSE, 
TRUE) ] 选择 了 逻辑 值 为 TRUE 。 于 是 sa3 和 4 被 剔除 了 。 
在 知道 gs3 和 aq4 是 第 8 个 和 第 9 个 变量 的 情况 下 ， 可 以 使 用 语句 : 


newdata <- leadqership[c(-8,-9) 


将 它们 剔除 。 这 种 方式 的 工作 原理 是 ， 在 某 一 列 的 下 标 之 前 加 一 个 减 号 (- ) 就 会 剔除 那 一 列 。 
最 后 ， 相 同 的 变量 删除 工作 亦 可 通过 : 


leadership$q3 <- leaderships$q4 <- NULL 


来 完成 。 这 回 你 将 gq3 和 qa4 两 列 设 为 了 未 定义 ( NULL )。 注 意 ，NULL 与 NA ( 表示 缺失 ) 是 不 
同 的 。 

丢弃 变量 是 保留 变量 的 逆向 操作 。 选择 哪 一 种 方式 进行 变量 筛选 依赖 于 两 种 方式 的 编码 难 易 
程度 。 如 果 有 许多 变量 需要 丢弃 ， 那 么 直接 保留 需要 留 下 能 en 反之 亦 然 。 
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4.10.3 选 入 观测 


选 和 人 或 剔除 观测 〈 行 ) 通常 是 成 功 的 数据 准备 和 数据 分 析 的 一 个 关键 方面 。 代 码 清单 4-6 给 
出 了 一 些 例 子 。 


代码 清单 4-6 选 人 观测 


newdata <- leadership[1:3,] 
选择 第 1 _/ 


























行 到 第 3 newdata <- leadership[leadership$gender=="M" & 选择 所 有 30 岁 
行 ( 前 三 leadership$age > 30,] 以 上 的 男性 
个 观测 ) 


使 用 了 attach() 函数 ， 
所 以 你 就 不 必 在 变量 名 
前 加 上 数据 框 名 称 了 

在 以 上 每 个 示例 中 ， 你 只 提供 了 行 下 标 ， 并 将 列 下 标 留 空 ( 故 选 入 了 所 有 列 )。 在 第 一 个 示 
例 中 ， 你 选择 了 第 1 行 到 第 3 行 〈 前 三 个 观测 )。 

让 我 们 拆 解 第 二 行 代码 以 便 理 解 它 。 

(1) 逻辑 比较 leadqershipsgendqer=="M" 生 成 了 向 量 c (TRUE， FALSE, FALSE, TRUE， 
FALSE) 。 

(2) 逻辑 比较 leadership$age > 30 生 成 了 疝 量 c(TRUE，TRUE，FALSE，TRUE，TRUE ) 

(3) 逻辑 比较 c (TRUE, FALSE, FALSE, TRUE, TRUE) & c(TRUE，TRUE，FALSE，TRUE ， 


attach (leadership) 
newdata <- leadershiplgender=='M' & age > 30,] 
detach (leadership) 






















































































TRUE) 生成 了 向 量 c (TRUE, FALSE, FALSE, TRUE, FALSE)。 
(4) leadership[c (TRUE，FALSE,，FALSE，TRUE，FALSE),] 从 数据 框 中 选择 了 第 一 个 
和 第 四 个 观测 ( 当 对 应 行 的 索引 是 TRUE， 这 一 行 被 选 入 ; 当 对 应 行 的 索引 是 FALSE， 这 一 行 被 易 
除 )。 这 就 满足 了 我 们 的 选取 准则 (30 岁 以 上 的 男性 )。 
在 本 章 开 始 的 时 候 ， 我 曾经 提 到 ， 你 可 能 希望 将 研究 范围 限定 在 2009 年 1 月 1 日 到 2009 年 12 















































月 31 日 之 间 收 集 的 观测 上 。 怎么 做 呢 ? 这 里 有 一 个 办 法 : 使 用 格式 mm/qqd/yy 将 
a 开始 作为 字符 值 读 入 
leaderships$sdate <- as.Date(leaderships$date, sm/ Sd/%Sy") 的 日 期 转换 为 日 期 什 
pe <- as.Date("2009-01-01") 创建 结束 日 期 
enddate <- as.Date("2009-10-31") EL 
创建 开 
台 日 期 ” newdata <- leadership[which(leaderships$date >= startdate & 像 上 例 一 样 选取 那些 满 


leadershipsdate <= enddate),] 足 你 期 望 中 准则 的 个 案 


注意 ， 由 于 as .Date () 函数 的 默认 格式 就 是 zy-mm-dd， 所 以 你 无 需 在 这 里 提供 这 个 参数 。 








4.10.4 subset () 函数 


前 两 节 中 的 示例 很 重要 ， 因 为 它们 辅助 描述 了 逻辑 型 向 量 和 比较 运算 符 在 R 中 的 解释 方式 。 
理解 这 些 例子 的 工作 原理 在 总 体 上 将 有 助 于 你 对 R 代 码 的 解读 。 既 然 你 已 经 用 第 办 法 完成 了 任务 ， 
现在 不 妨 来 看 一 种 简便 方法 。 
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使 用 subset () 函数 大 概 是 选择 变量 和 观测 最 简单 的 方法 了 。 两 个 示例 如 下 : 


选择 所 有 age 值 大 于 等 于 35 或 age 值 
小 于 24 的 行 ， 保 留 了 变量 as1 到 a4 





newdata <- subset (leadership, age >= 35 | age < 24, 
seleet=c (dl, gq2, dq3; 94)) 





newdata <- subset (leadership, gender=="M" & age > 25, 1 
select=gender:q4) 


选择 所 有 25 岁 以 上 的 男性 ， 并 保留 了 变量 gender 
到 q4 (gender、q4 和 其 间 所 有 列 ) 


你 在 第 2 章 中 已 经 看 到 了 冒号 运算 符 from:to。 在 这 里 ， 它 表示 了 数据 框 中 变量 from 到 变量 
to 包含 的 所 有 变量 。 


4.10.5 ”随机 抽样 


在 数据 挖 气 和 机 带 学 习 领 域 , 从 更 大 的 数据 集中 抽样 是 很 常见 的 做 法 。 举 例 来 说 ,你 可 能 希 
望 选择 两 份 随机 样本 ， 使 用 其 中 一 份 样本 构建 预测 模型 ， 使 用 另 一 份 样本 验证 模型 的 有 效 性 
sample() 函数 能 够 让 你 从 数据 集中 (有 放 回 或 无 放 回 地 ) 抽取 大 小 为 n 的 一 个 随机 样本 。 

你 可 以 使 用 以 下 语句 从 leadqership 数 据 集中 随机 抽取 一 个 大 小 为 3 的 样本 : 

mysample <- leadership[sample(1l:nrow(leadership), 3, replace=FALSE),] 

sample() 函数 中 的 第 一 个 参数 是 一 个 由 要 从 中 抽样 的 元 素 组 成 的 向 量 。 在 这 里 ， 这 个 向 量 
是 1 到 数据 框 中 观测 的 数量 ,第 二 个 参数 是 要 抽取 的 元 素数 量 ， 第 三 个 参数 表示 无 放 回 抽样 。 
sample () 函数 会 返回 随机 抽样 得 到 的 元 素 ， 之 后 即 可 用 于 选择 数据 框 中 的 行 。 

R 中 拥有 齐全 的 抽样 工具 ， 包 括 抽取 和 校正 调查 样本 (参见 sampling 包 ) 以 及 分 析 复 杂 调 
查 数据 ( 参见 survey 包 ) 的 工具 。 其 他 依赖 于 抽样 的 方法 ， 包 括 自助 法 和 重 抽样 统计 方法 ， 详 
见 第 12 章 。 


4.11 使 用 SQL 语句 操作 数据 框 


到 目前 为 止 ， 你 一 直 在 使 用 R 语 名 操作 数据 。 但 是 ， 许 多 数据 分 析 人 员 在 接触 R 之 前 就 已 经 
精通 了 结构 化 查询 语言 (SQL )， 要 丢弃 那么 多 积累 下 来 的 知识 实 为 一 件 憾事 。 因 此 ， 在 我 们 结 
束 本 章 之 前 简 述 一 下 sqlgf 包 。( 如 果 你 对 SQL 不 熟 ， 请 尽管 跳 过 本 节 。) 

在 下 载 并 安装 好 这 个 包 以 后 ( install.packages ("sqldf") )， 你 可 以 使 用 sqlaf () 函数 
在 数据 框 上 使 用 SQL 中 的 SELECT 语句 。 代 码 清 单 4-7 给 出 了 两 个 示例 。 


代码 清单 4-7 ”使 用 SQL 语句 操作 数据 框 


从 数据 框 mntcars 中 选择 所 有 的 变量 〈 列 ) ， 保 留 那些 使 用 化 油 器 〈carb) 的 车 型 〈 行 ) ， 按 照 mpg 对 车 型 进行 了 
升序 排序 ， 并 将 结果 保存 为 数据 框 newdaf 。 人 参数 row.names=TRUE 将 原始 数据 框 中 的 行 名 延续 到 了 新 数据 框 中 
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> library (sqldf) 

> newdf <- sqldf("select * from mtcars where carb=1 order by mpg", 
row.names=TRUE) 

> newdf 








mpg cy]1 disp hp drat wt dasec vs am gear carb 


Valiant 18.1 G30 JOS: 2 FO SME 208327 © 3 1 
Hornet 4 Drive 21.4 6 2580 T10308, B21 L994, 1 0 3 1 
Toyota Corona 21.5 4: LPO TONG DOFO 1 TO 总 1 
Datsun 710 2 站 :0.8.50 93 713%85 2.32 86 .7 二 4 1 
Fa 区 =9 2 .53 4 90. G66 W408 1.594 -T8590 二 记 4 1 
Fiat 128 32.4 ”T8766 i008 2720 E95 1 痢 4 1 
Toyota Corolla 33.9 4. TL 65 $22 L283 1499 五 二 4 1 


> sqldf ("select avg (mpg) as avg_mpg, avg(disp) as avg_disp, gear 
from mtcars where cyl in (4, 6) group by gear") 
avg_mpg avg_disp gear 


1 20.3 201 3 输出 四 氏 和 六 所 车 型 每 一 gear 
2 24.5 123 4 水 平 的 npg 和 adaisp 的 平均 值 
3 25.4 120 5 

















经 验 丰富 的 SQL 用 户 将 会 发 现 ，salaf 包 是 R 中 一 个 实用 的 数据 管理 辅助 工具 。 请 参阅 项 目 
主页 (http://code.google.com/p/sqldf/ ) 以 了 解 详情 。 





4.12 小结 


本 章 讲解 了 大 量 的 基础 知识 。 首 先 我 们 看 到 了 R 存 储 缺失 值 和 日 期 值 的 方式 ， 
的 多 种 处 理 方法 。 接 着 学 习 了 如 何 确定 一 个 对 象 的 数据 类 型 ， 以 及 如 何 将 它 转换 为 其 他 类 型 。 还 
使 用 简单 的 公式 创建 了 新 变量 并 重 编码 了 现 有 变量 。 你 学 习 了 如 何 对 数据 进行 排序 和 对 变量 进行 
重 命名 ， 学 习 了 如 何 对 数据 和 其 他 数据 集 进行 横向 合并 ( 添加 变量 ) 和 纵向 合并 添加 观测 )。 
最 后 ， 我 们 讨论 了 如 何 保 留 或 丢弃 变量 ， 以 及 如 何 基 于 一 系列 的 准则 选取 观测 。 

在 下 一 章 中 ,我 们 将 着 眼 于 R 中 不 计 其 数 的 ， 用 于 创建 和 转换 变量 的 算术 函数 、 字 符 处 理 函 
数 和 统计 函数 。 在 探索 了 控制 程序 流程 的 方式 之 后 , 你 将 了 解 到 如 何 编写 自己 的 函数 。 我 们 也 将 
探索 如 何 使 用 这 些 函 数 来 整合 及 概括 数据 。 

在 第 5 章 结束 时 , 你 就 能 掌握 管理 复杂 数据 集 的 多 数 工具 。( 无 论 你 走 到 哪里 , 都 将 成 为 数据 
分 析 师 艳羡 的 人 物 ! ) 







































































高 级 数据 党 理 








本 章 内 容 

口 数学 和 统计 函数 
口 字符 处 理 函 数 
口 循环 和 条 件 执行 
口 自 编 函数 

口 数据 整合 与 重 塑 





在 第 4 章 , 我 们 审视 了 R 中 基本 的 数据 集 处 理 方法 , 本章 我 们 将 关注 一 些 高 级 话题 。 本 章 分 为 
三 个 基本 部 分 。 在 第 一 部 分 中 ， 我 们 将 快速 浏览 R 中 的 多 种 数学 、 统 计 和 字符 处 理 函 数 。 为 了 让 
这 一 部 分 的 内 容 相互 关联 , 我 们 先 引 入 一 个 能 够 使 用 这 些 函 数 解决 的 数据 处 理 问题 。 在 讲解 过 这 
些 函 数 以 后 ， 再 为 这 个 数据 处 理 问 题 提 供 一 个 可 能 的 解决 方案 。 
接 下 来 , 我 们 将 讲解 如 何 自 己 编写 函数 来 完成 数据 处 理 和 分 析 任 务 。 首 先 , 我 们 将 探索 控制 
程序 流程 的 多 种 方式 ,包括 循环 和 条 件 执行 语句 。 然 后 , 我们 将 研究 用 户 自 编 函数 的 结构 ， 以 及 
在 编写 完成 后 如 何 调 用 它们 。 

最 后 ， 我 们 将 了 解数 据 的 整合 和 概述 方法 ， 以 及 数据 集 的 重 塑 和 重 构 方法 。 在 整合 数据 时 ， 
你 可 以 使 用 任何 内 建 或 自 编 函数 来 获取 数据 的 概述 , 所 以 你 在 本 童 前 两 部 分 中 学 习 的 内 容 将 会 派 
上 用 场 。 


5.1 一 个 数据 处 理 难 题 


要 讨论 数值 和 字符 处 理 函 数 ， 让 我 们 首先 考虑 一 个 数据 处 理 问题 。 一 组 学 生 参 加 了 数学 、 科 
学 和 英语 考试 ,为 了 给 所 有 学 生 确定 一 个 单一 的 成 绩 衡量 指标 ,需要 将 这 些 科目 的 成 绩 组 合 起 来 。 
另外 ,你 还 想 将 前 20% 的 学 生 评定 为 A， 接 下 来 20% 的 学 生 评 定 为 B, 依次 类 推 。 最 后 ,你 希望 按 
字母 顺序 对 学 生 排序 。 数 据 如 表 5-1 所 示 。 
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表 5-1 学生 成绩 数 据 





学 生 姓 名 数 学 科 学 英 语 
John Davis 502 95 23 
Angela Williams 600 99 22 
Bullwinkle Moose 412 80 18 
David Jones 358 82 15 
Janice Markhammer 495 75 20 
Cheryl Cushing 512 85 28 
Reuven Ytzrhak 410 80 15 
Greg Knox 625 95 30 
Joel England 573 89 27 
Mary Rayburn 522 86 18 


观察 此 数据 集 ， 马 上 可 以 发 现 一 些 明显 的 障碍 。 首 先 ， 三 科 考 试 的 成 绩 是 无 法 比较 的 。 由 于 
它们 的 均值 和 标准 差 相 去 甚 远 ,所 以 对 它们 求 平均 值 是 没有 意义 的 ,你 在 组 合 这 些 考试 成 绩 之 前 ， 
必须 将 其 变换 为 可 比较 的 单元 。 其 次 , 为 了 评定 等 级 ,你 需要 一 种 方法 来 确定 某 个 学 生 在 前 述 得 
分 上 百分比 排名 。 再 次 ,表示 姓名 的 字段 只 有 一 个 , 这 让 排序 任务 复杂 化 了 。 为 了 正确 地 将 其 排 
序 ， 需 要 将 姓 和 名 拆 开 。 

以 上 每 一 个 任务 都 可 以 巧妙 地 利用 R 中 的 数值 和 字符 处 理 函 数 完成 。 在 讲解 完 下 一 节 中 的 各 
种 函数 之 后 ,我们 将 考虑 一 套 可 行 的 解决 方案 ， 以 解决 这 项 数据 处 理 难题 。 


5.2 ”数值 和 字符 处 理 函 数 
本 节 我 们 将 综述 R 中 作为 数据 处 理 基 石 的 函数 ， 它 们 可 分 为 数值 (数学 、 统 计 、 概 率 ) 函数 
和 字符 处 理 函 数 。 在 阐述 过 每 一 类 函数 以 后 , 我 将 为 你 展示 如 何 将 函数 应 用 到 和 矩阵 和 数据 框 的 列 
(变量 ) 和 行 (观测 ) 上 (参见 5.2.6 节 )。 
5.2.1 数学 函数 
表 5-2 列 出 了 常用 的 数学 函数 和 简短 的 用 例 。 
表 5-2 ”数学 函数 















































函 数 描 述 
abs (x) 绝对 值 
abs(-4) 返 回 值 为 4 
sqrt (x) 平方 根 
sqrt (25) 返 回 值 为 5， 和 25^(0.5) 等 价 
ceiling (x) 不 小 于 x 的 最 小 整数 
ceiling (3.475) 返 回 值 为 4 
floor (x) 不 大 于 x 的 最 大 整数 








floor (3.475) 返 回 值 为 3 
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( 续 ) 
函 数 描 述 
trunc (x) 向 0 的 方向 截取 的 x 中 的 整数 部 分 
trunc(5.99) 返 回 值 为 5 
round (x, digits=n) 将 x 舍 人 为 指定 位 的 小 数 
round (3.475，digits=2) 返 回 值 为 3.48 
signif (x, digits=n) 将 x 舍 人 为 指定 的 有 效 数字 位 数 
signif (3.475，digits=2) 返 回 值 为 3.5 
cos (x) 、sin(x)、 tan(x) 余弦 、 正 弦 和 正切 
cos (2) 返 回 值 为 -0.416 
acos (x) 、asin(x) 、atan (x) 反 余 纺 、 反 正弦 和 反正 切 
acos(-0.416) 返 回 值 为 2 
cosh (x) 、sinh (x) 、tanh (x) 双 曲 余弦 、 双 曲 正弦 和 双 曲 正切 
sinh (2) 返 回 值 为 3.627 
acosh (x) 、asinh (x) 、atanh (x) 反 双 曲 余弦 、 反 双 曲 正弦 和 反 双 曲 正切 
asinh(3.627) 返 回 值 为 2 
log (x, base=n) 对 x 取 以 = 为 底 的 对 数 
ss TB 
。log (x) 为 自然 对 数 
。1og10 (x) 为 常用 对 数 
。1log(10) 返 回 值 为 2.3026 
“1og10(10) 返 回 值 为 1 
exp (Xx) 指数 函数 
exp (2.3026) 返 回 值 为 10 
对 数据 做 变换 是 这 些 函 数 的 一 个 主要 用 途 。 例如 , 你 经 常会 在 进一步 分 析 之 前 将 收入 这 种 存 





在 明显 偏 倚 的 变量 取 对 数 。 数学 函数 也 被 用 作 公 式 中 的 一 部 分 用 于 绘图 函数 (例如 x 对 sin (x) ) 
和 在 输出 结果 之 前 对 数值 做 格式 化 。 


表 5-2 中 





的 示例 将 数学 函数 应 用 到 了 标量 (单独 的 数值 ) 上 。 当 这 些 函 数 被 应 用 于 数值 向 量 、 








和 矩阵 或 数据 框 时 ， 它 们 会 作用 于 每 一 个 独立 的 值 。 例 如 ，sart (c (4,16，25) ) 的 返回 值 为 c (2 


4， 加 区 


5.2.2 ”统计 函数 
常用 的 统计 函数 如 表 5-3 所 示 ， 其 中 许多 函数 都 拥有 可 以 影响 输出 结果 的 可 选 参数 。 举 例 





来 说 : 
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提供 了 对 象 xz 中 元 素 的 算术 平均 数 ， 而 : 
Z <- mean(x, trim = 0.05, na.rm=TRUE) 


则 提供 了 截 尾 平均 数 ， 即 丢弃 了 最 大 $% 和 最 小 5% 的 数据 和 所 有 缺失 值 后 的 算术 平均 数 。 请 使 用 
help() 了解 以 上 每 个 函数 和 其 参数 的 用 法 。 


表 5-3 ”统计 函数 











函 数 描 述 
mean (x) 平均 数 
mean (c (1,2,3,4)) 返 回 值 为 2.5 
median (x) 中 位 数 














median(c (1,2,3,4)) 返 回 值 为 2.5 


















































Sd (x) 标准 差 
sd(c(1,2,3,4)) 返 回 值 为 1.29 
Var (x) 方差 
var (c (1,2,3,4) ) 返 回 值 为 1.67 
mad (x) 绝对 中 位 差 ( median absolute deviation ) 
mad (c (1,2,3,4) ) 返 回 值 为 1.48 
quantile (x,probs) 求 分 位 数 。 其 中 x 为 待 求 分 位 数 的 数值 型 向 量 ，props 为 一 个 由 [0,1] 之 间 的 概率 值 组 成 
的 数值 向 量 


# 求 x 的 30% 和 84% 分 位 点 

y <- quantile(x, c(.3,.84)) 
range (x) 求 值 域 

pm 

range (x) 返 回 值 为 c (1,4) 


























diff (range (x) ) 返 回 值 为 3 
sum(x) 求 和 
sum(c(1,2,3,4)) 返 回 值 为 10 
diff (x, lag=n) 滞后 差分 ，1ag 用 以 指定 滞后 几 项 。 默 认 的 1ag 值 为 1 


Xe C1, 233 29) 
diff (x) 返 回 值 为 c(4，18，6) 























min (x) 求 最 小 值 
min(c(1,2,3,4)) 返 回 值 为 1 

max (x) 求 最 大 值 
max(c(1,2,3,4)) 返 回 值 为 4 


























2 a er=TRUE， ”为 数据 对 象 x 按 列 进行 中 心 化 (center=TRUE) 或 标准 化 (center=TRUE, scale=TRUE); 
scale= Xe os 
代码 清单 5-6 中 给 出 了 一 个 示例 
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要 了 解 这 些 函 数 的 实战 应 用 ， 请 参考 代码 清单 5-1。 这 个 例子 演示 了 计算 某 个 数值 向 量 的 均 
值 和 标准 差 的 两 种 方式 。 
代码 清单 5-1 均值 和 标准 差 的 计算 


8 








简洁 的 方式 


> n <- length(x) 
> meanx <- sum(x)/n 

> CSS <- sum((x - meanx)^ 人 2) 
> sdx <- sqrt(css / (n-1)) 元 长 的 方式 
> meanx 

EA 1. 

> sdx 

[1] 2.449490 





第 二 种 方式 中 修正 平方 和 (css ) ee 是 很 有 启发 性 的 : 

(1) x 等 于 c(1，2，3，4，5，6，7， ，x 的 平均 值 等 于 4.5 ( Ilength(x) 返 回 了 x 中 元 素 
的 数量 ); 

(2) (x - meanx) ) 从 x 的 每 个 元 素 中 减 去 了 4.5， 结 果 为 c(-3.5, -2.5, -1.5, -0.5, 0.5, 
3 

(3) (x — meanx)^2 将 (x - meanx) 的 每 个 元 素 求 平方 ， 结 果 为 c(12.25，6.25，2.25， 
O25 “QD Sy 6% 2257 "J 2 5) 

(4) sum( (x - meanx)^2) 对 (x - meanx)^2) 的 所 有 元 素 求 和 ， 结 果 为 42。 

R 中 公式 的 写法 和 类 似 MATLAB 的 矩阵 运算 语言 有 着 许多 共同 之 处 。( 我 们 将 在 附录 DD 中 具 

体 关 注解 决 矩阵 代数 问题 的 方法 。) 




















数据 的 标准 化 

默认 情况 下 ， 函 数 scale() 对 托 阵 或 数据 框 的 指定 列 进 行 均值 为 0、 标 准 差 为 1 的 标准 化 : 

newdata <- Scale (mydata) 

要 对 每 一 列 进行 任意 均值 和 标准 差 的 标准 化 ， 可 以 使 用 如 下 的 代码 : 

newdata <- scale(mydata)*SD + M 
其 中 的 M 是 想 要 的 均值 ，SD 为 想 要 的 标准 差 。 在 非 数值 型 的 列 上 使 用 scale () 函数 将 会 报错 。 
要 对 指定 列 而 不 是 整个 给 阵 或 数据 框 进行 标准 化 ， 你 可 以 使 用 这 样 的 代码 : 

newdata <- transform(mydata, myvar = scale(myvar)*10+50) 
此 名 将 变量 myvar 标 准 化 为 均值 50、 标 准 差 为 10 的 变量 。 你 将 在 5.3 节 数据 处 理 问 题 的 解决 方 
法 中 用 到 scale() 函数 。 
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5.2.3 ”概率 函数 








你 可 能 在 疑惑 为 何 概率 函数 未 和 统计 函数 列 在 一 起 。( 你 真 的 对 此 有 些 困惑 ， 





对 吧 ? ) 虽然 


根据 定义 ,概率 函数 也 属于 统计 类 , 但 是 它们 非常 独特 ,应 独立 设 一 节 进 行 讲解 。 概 率 函 数 通 常 














在 R 中 ， 概 率 函 数 形 如 


[dpgqrladistribution abbreviation() 


其 中 第 一 个 字母 表示 其 所 指 分 布 的 某 一 方面 : 
= 密度 隐 数 ( density ) 

= 分 布 函 数 ( distribution function ) 
= 分 位 数 函 数 ( quantile function ) 








Q 
p 
q 
益 


= 生成 随机 数 〈 随机 


常用 的 概率 函数 列 于 表 5-4 中 。 





局 差 ) 


用 来 生成 特征 已 知 的 模拟 数据 ， 以 及 在 用 户 编写 的 统计 函数 中 计算 概率 值 。 



































表 5-4 ”概率 分 布 
分 布 名 称 缩写 分 布 名 称 缩写 

Beta 分 布 beta Logistic 分 布 logis 
二 项 分 布 binom 多 项 分 布 multinom 
柯 西 分 布 cauchy 负 二 项 分 布 nbinom 

( 非 中 心 ) 卡 方 分 布 chisq 正 态 分 布 oy 
指数 分 布 exp 泊 松 分 布 pois 
F 分 布 f Wilcoxon 符号 秩 分 布 signrank 
Gamma 分 布 gamma t 分 布 t 
几何 分 布 geom 均匀 分 布 unif 
超 几 何 分 布 hyper Weibull 分 布 weibull 
对 数 正 态 分 布 lnorm Wilcoxon 秩 和 分 布 wilcox 


我 们 不 妨 先 看 看 正 态 分 布 的 有 关 函 数 , 以 了 解 这 些 函 数 的 使 用 方法 。 如 果 不 指 定 一 个 均值 和 
一 个 标准 差 ， 则 函数 将 假定 其 为 标准 正 态 分 布 ( 均值 为 9， 标准 差 为 ! )。 密 度 函 数 (danorm )、 分 
布 函数 (pnorm )、 分 位 数 函 数 ( qnorm ) 和 随机 数 生 成 函数 ( rnorm ) 的 使 用 示例 见 表 5-5。 
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表 5-5 ” 正 态 分 布 函数 

















问 题 解 法 
| 太 X= pretty (0.(-353) 3. 30) 
在 区 间 [-3, 3] 上 绘制 标准 正 态 曲线 i 
plot (x, y, 
type = " 
xlab = "Normal Deviate", 
ylab = "Density", 
| yaxs = "i" 
) 
这 
1 
[a | 
总 过 
-3 -2 -1 0 2 3 


Normal Daviale 


位 于 到 1.96 左 侧 的 标准 正 态 曲线 下 方面 积 是 多 少 ? pnorm(1.96) 等 于 0.975 5 


均值 为 500， 标 准 差 为 100 的 正 态 分 布 的 0.9 分 位 点 值 为 多 少 ? anorm(.9，mean=500，sd=100) 等 于 628.16 
生成 50 个 均值 为 50， 标 准 差 为 10 的 正 态 随机 数 horm(a dinean od say) 


















































如 果 读 者 对 plot () 函数 的 选项 不 熟悉 ,请 不 要 担心 ,这 些 选 项 在 第 11 章 中 有 详 述 , pretty () 
在 本 章 稍 后 的 表 5-7 中 进行 了 解释 。 

1. 设 定 随机 数 种 子 

在 每 次 生成 伪 随 机 数 的 时 候 ， 矣 0 因此 也 会 产生 不 同 的 结果 。 你 
可 以 通过 函数 se ， seed() 显 式 指定 这 个 种 子 ， 让 结果 可 以 重 现 (reproducible )。 代 码 清单 5-2 给 
出 了 一 个 示例 。 这 里 的 函数 runif ( a 


代码 清单 5-2 ”生成 服从 正 态 分 布 的 伪 随 机 数 
> TUNLE(SD) 
0.8725344 0.3962501 0.6826534 0.3667821 0.9255909 
> runif(5) 
1] 0.4273903 0.2641101 0.3550058 0.3233044 0.6584988 
> set.seed(1234) 
STUNnTE(S) 
Th OTL3TO0BA O6222994 0..6092747 06233794 0.8.609154 
> set.seed(1234) 
> -runif.(s) 
0.1137034 0.6222994 0.6092747 0.6233794 0.8609154 


通过 手动 设 定 种 子 , 就 可 以 重 现 你 的 结果 了 。 这 种 能 力 有 助 于 我 们 创建 会 在 未 来 取 用 的 ， 以 
及 可 与 他 人 分 享 的 示例 。 

2. 生成 多 元 正 态 数据 

在 模拟 研究 和 蒙特 卡 党 方法 中 , 你 经 常 需要 获取 来 自给 定 均值 向 量 和 协 方差 阵 的 多 元 正 态 分 
布 的 数据 。MASS 包 中 的 mvrnorm() 函数 可 以 让 这 个 问题 变 得 很 容易 。 其 调用 格式 为 : 
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mvrnorm(n, mean, sigma) 
其 中 n 是 你 想 要 的 样本 大 小 ，mean 为 均值 问 量 ， 而 sigma 是 方差 - 协 方差 矩阵 (或 相关 算 阵 )。 代 
码 清 单 5-3 从 一 个 参数 如 下 所 示 的 三 元 正 态 分 布 中 抽取 500 个 观测 。 


























均值 向 量 230.7 146.7 3.6 
协 方差 阵 15360.8 672T:2 -47.1 
6721.2 4700.9 -16.5 
= -16.5 0.3 





代码 清单 5-3 ”生成 服从 多 元 正 态 分 布 的 数据 


> library (MASS) ee 
> options (digits=3) = 设 定 随机 数 种 子 
> set.seed(1234) 


Sled < 0 (2B0 7 LLL6w 7 360) 


> sigma <- matrix(c(15360.8, 6721.2, -47.1, 指定 均值 向 量 、 
6721.2, 4700.9, -16.5, 协 方差 阵 
-47.1, -16.5, 他 WE LE 

> mydata <- mvrnorm(500, mean, sigma) 生成 数据 


V 


mydata <- as.data.frame (mydata) 
names (mydata) <- c{("y","xl1","x2") 


dim(mydata) 查看 结果 
[1] 500 3 
> head (mydata, n=10) 


V 


V 


Xx 


1 8 
2 5 
3 7 
4 2 
5 “313;.0: .TTLy 
6 288.8 
7 8 
8 7 
9 3 
1 1 


mm 口 心 口上 户口 让 IN WwW 
DRDO 
Ke 
记 

















代码 清单 5-3 中 设 定 了 一 个 随机 数 种 子 ， 这 样 就 可 以 在 之 后 重 现 结果 @。 你 指定 了 想 要 的 均 
值 向 量 和 方差 - 协 方差 阵 介 , 并 生成 了 500 个 伪 随 机 观测 全 ,为 了 方便 , 结果 从 矩阵 转换 为 数据 框 ， 
并 为 变量 指定 了 名 称 。 最 后 ,你 确认 了 拥有 500 个 观测 和 3 个 变量 , 并 输出 了 前 10 个 观测 @。 请 注 
意 ， 由 于 相关 和 矩阵 同时 也 是 协 方差 阵 ， 所 以 其 实 可 以 直接 指定 相关 关系 的 结构 。 

R 中 的 概率 函数 允许 生成 模拟 数据 ， 这 些 数据 是 从 服从 已 知 特征 的 概率 分 布 中 抽样 而 得 的 。 
近年 来 ， 依 赖 于 模拟 数据 的 统计 方法 呈 指 数 级 增长 ， 在 后 续 各 章 中 会 有 若干 示例 。 


5.2.4 字符 处 理 函 数 
数学 和 统计 函数 是 用 来 处 理 数值 型 数据 的 ， 而 字符 处 理 函 数 可 以 从 文本 型 数据 中 抽取 信息 ， 
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或 者 为 打印 输出 和 生成 报告 重 设 文本 的 格式 。 举 例 来 说 , 你 可 能 希望 将 某 人 的 姓 和 名 连接 在 一 起 ， 
并 保证 姓 和 名 的 首 字母 大 写 ， 抑 或 想 统计 可 自由 回答 的 调查 反馈 信息 中 含有 秽语 的 实例 
(instance ) 数量 。 一 些 最 有 用 的 字符 处 理 函 数 见 表 5-6。 


表 5-6 ”字符 处 理 函 数 
函数 描述 

nchar (x) 计算 x 中 的 字符 数量 

的 

length (x) 返 回 值 为 3( 参见 表 5-7 ) 

nchar ( ] ) 返 回 值 为 5 
SUubDsti (XK Start,, StOD) 提取 或 替换 一 个 字符 向 量 中 的 子 串 

x <- "abcdef" 

substr (x，2，4) 返 回 值 为 "bca" 


























substr (x，2，4) <- "22222" (x 将 变 成 "a222ef" ) 
grep(pattern, x, ignore. 在 x 中 搜索 某 种 模式 。 若 fixed=FALSE， 则 pattern 为 一 个 正则 表达 式 。 若 
Case=FALSE, fixed=FALSE) ek 网 Ss 
fixed=TRUE， 则 pattern 为 一 个 文本 字符 串 。 返 回 值 为 匹配 的 下 标 
grep ("A",c("b","A","c"),fixed=TRUE) 返 回 值 为 2 
sub(pattern, replacement,， 在 x 中 搜索 pattern,， 并 以 文本 replacement 将 其 替换 。 若 fixed=FALSE， 则 


x, ignore.case=FALSE, 有 . 
fixed=FALSE) pattern 为 一 个 正则 表达 式 。 若 fixedq=TRUE， 则 pattern 为 一 个 文本 字符 串 。 






































sub("\\s",".", "Hello There") 返 回 值 为 Hello.There。 注 意 ，"\s" 是 一 个 
用 来 查找 空白 的 正则 表达 式 ; 使 用 "\\s "而 不 用 心 "的 原因 是 ,后 者 是 及 中 的 转 义 
字符 (参见 1.3.3 节 ) 






































ED split, 在 split 处 分 割 字符 向 量 x 中 的 元 素 。 若 fixed=FALSE， 则 pattern 为 一 个 正 
则 表达 式 。 若 fixed=TRUE， 则 pattern 为 一 个 文本 字符 串 
y <- strsplit("abc"，"") 将 返回 一 个 含有 1 个 成 分 、3 个 元 素 的 列表 ， 包 含 
的 内 容 为 "a" "b" "cn" 
unlist (y) [2] 和 sapply(y，"["，2) 均 会 返回 "pb" 

Paste(… sep="") 连接 字符 串 ， 分 隔 符 为 sep 
paste ("x"，1:3,sep="") 返 回 值 为 c("x1l",，"x2"，"x3") 
Dt "M") 返 回 值 为 c ("xM1", "xM2" "xM3") 





paste("Today is"，dqate()) 返 回 值 为 Today is Thu Jun 25 14:17:32 2011 


(我 修改 了 日 期 以 让 它 看 起 来 更 接近 当前 的 时 间 ) 


toupper (x) 大 写 转换 
toupper ("abc") 返 回 值 为 "ABC" 
tolower (x) 小 写 转换 


tolower ("ABC") 返 回 值 为 "abc" 





请 注意 ， 也 数 grep () 、sup() 和 strsplit 1() 能 够 搜索 革 个 文本 字符 串 ( fixed=TRUE ) 或 
某 个 正则 表达 式 ( fixed=FaALSE， 默 认 值 为 FALSE )。 正 则 表达 式 为 文本 模式 的 匹配 提供 了 一 套 





-上品 
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清晰 而 简练 的 语法 。 例 如 ， 正 则 表达 式 : 
[hcel?at 


可 匹配 任意 以 0 个 或 1 个 h 或 c 开 头 、 后 接 at 的 字符 串 。 因 此 ， 此 表达 式 可 以 匹配 hat、cat 和 at， 但 
不 会 匹配 bat。 要 了 解 更 多 ， 请 参考 维基 百科 的 regular expression ( 正则 表达 式 ) 条 目 。 


5.2.5 ”其 他 实用 函数 
表 5-7 中 的 函数 对 于 数据 管理 和 处 理 同 样 非常 实用 ， 只 是 它们 无 法 清楚 地 划 和 人 其 他 分 类 中 。 
表 5-7 其 他 实用 函数 
函 数 描 
length (x) 对 象 x 的 长 度 
a | 


length (x) 返回 值 为 4 
seq(from, to, by) 生成 一 个 序列 

















indices <- seq(1,10,2) 
indices 的 值 为 c(1，3，5，7，9) 


rep (x, n) 将 x 重 复 次 





Y=- Tepi(l: 3 2) 
y 的 值 为 c(1，2，3，1，2，3) 

cut (x, 四 将 连续 型 变量 x 分 制 为 有 着 5 个 水 平 的 因子 
使 用 选项 orderegd_result = TRUE 以 创建 一 个 有 序 型 因子 

pret by (Kn) 创建 美观 的 分 割 点 。 通 过 选取 n+1 个 等 间距 的 取 整 值 ， 将 一 个 连续 型 变量 x 
分 割 为 n 个 区 间 。 绘 图 中 常用 


cat(,.. , file ="myfile", 连接 .中 的 对 象 ， 并 将 其 输出 到 屏幕 上 或 文件 中 ( 如 果 声 明了 一 个 的 话 ) 
append =FALSE) 













































































firstname <- c("Jane") 
cat ("Hello" ,firstname, "\n") 


表 中 的 最 后 一 个 例子 演示 了 在 输出 时 转 义 字符 的 使 用 方法 。\n 表 示 新 行 ，\t 为 制 表 符 ，\， 
为 单 引 号 ，\b 为 退 格 ， 等 等 。( 键入 ?Quotes 以 了 解 更 多 。) 例如 ， 代码; 


name <- "Bob" 





att "Heltlon? Tomey "Vy MNT, MHINTt ,RT TE TT TORBAT?NII.)} 
可 生成 : 

Hello Bob. 

Isn't R GREAT? 


请 注意 第 二 行 缩 进 了 一 个 空格 。 当 cat 输 出 连接 后 的 对 象 时 ， 它 会 将 每 一 个 对 象 都 用 空格 分 
开 。 这 就 是 在 句号 之 前 使 用 退 格 转 义 字符 (\b ) 的 原因 。 不 然 ， 生 成 的 结果 将 是 “Hello Bob .”。 
在 数值 、 字 符 串 和 向 量 上 使 用 我 们 最 近 学 习 的 函数 是 直观 而 明确 的 , 但 是 如 何 将 它们 应 用 到 
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和 矩阵 和 数据 框 上 呢 ? 这 就 是 下 一 节 的 主题 。 


5.2.6 ”将 函数 应 用 于 和 矩 阵 和 数据 杠 


RR 函数 的 诸多 有 趣 特 性 之 一 ， 就 是 它们 可 以 应 用 到 一 系列 的 数据 对 象 上 ， 包 括 标量 、 向 量 、 
矩阵、 数组 和 数据 框 。 代 码 清 单 5-4 提 供 了 一 个 示例 。 


代码 清单 5-4 将 函数 应 用 于 数据 对 象 
二 
> sqrt(a) 
[1] 2.236068 
S70 (5 99) 
> round(b) 














[41,1 6 "3 
> C <- matrix(runif (12), nrow=3) 
> 

[zl [,2] | [,4] 


| O205 0 DD O06.99 75.0323 

25 “O5027:0. 08.6.0L 08 0 92:6 

Bl] Os 0:6.827 0 3 L970% 39.9. O02.E5 

> logl(c) 

[x [,2] [3 [,4] 
7] ,0.866 L036.0.358 .15130 
2 6 0 508 LL 0077 
3:3] -0 403 LL44 -03 L538 
> mean(c) 

1] 0.444 


请 注意 , 在 代码 清单 5-4 中 对 矩阵 c 求 均值 的 结果 为 一 个 标量 ( 0.444 )。 函数 mean () 求 得 的 是 
和 矩阵 中 全 部 12 个 元 素 的 均值 。 但 如 果 和 希望 求 的 是 各 行 的 均值 或 各 列 的 均值 呢 ? 

R 中 提供 了 一 个 apply () 函数 ， 可 将 一 个 任意 函数 “应 用 ”到 矩阵 、 数 组、 数据 框 的 任何 维 
度 上 。apply () 函数 的 使 用 格式 为 : 


apply (x, MARGIN, FUN, ...) 


其 中 ，x 为 数据 对 象 ，MaRGIN 是 维度 的 下 标 ，FUN 是 由 你 指定 的 函数 ， 而 .. . 则 包括 了 任何 想 传 
递 给 Fo 的 参数 。 在 矩阵 或 数据 框 中 ，MARcIN=1 表 示 行 ，MARGIN=2 表 示 列 。 请 看 以 下 例子 。 


代码 清单 5-5 ”将 一 个 函数 应 用 到 矩阵 的 所 有 行 ( 列 ) 



































> mydata <- matrix(rnorm(30), nrow=6) 

> mydata 6 生成 数据 
[1 [,2] [,3] [,4] [,5] 

EL] OTL298 T3680.8320 L234 0790 

E25 ,SO T5096 1 .LAO = TQ00F 057725 Od06 

LB” STLOr EONSLY 0 G67 ‘0 72 STBS0 

La] OOO 3 0308. OILEY ,T3911 T1558 

[57 S000543° , 0378 S009006- L850,..350 

[6,] -0.52178 -0.539 -1.7347 2.050 1.569 a 

> apply (mydata, 1, mean) 
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计算 每 [1] -0.155 -0.504 -0.511 0.154 -0.310 0.165 


行 的 截 > apply (mydata, 2, mean) 

尾 均 值 [1] -0.2907 0.0449 -0.5688 -0.3442 0.1906 Oe 
> apply (mydata, 2, mean, trim=0.2) 
[LL] O699. “OOL27 -0 6475 = 006075 O02312 


首先 生成 了 一 个 包含 正 态 随机 数 的 6x5 和 矩 阵 @。 然 后 你 计算 了 6 行 的 均值 @， 以 及 5 列 的 均值 
全 , 最 后 , 你 计算 了 每 列 的 截 尾 均值 ( 在 本 例 中 , 截 尾 均值 基于 中 间 60% 的 数据 , 最 高 和 最 低 20% 
的 值 均 被 忽略 ) @。 

FUN 可 为 任意 R 函 数 ， 这 也 包括 你 自行 编写 的 函数 (参见 5.4 节 )， 所 以 apply () 是 一 种 很 强 
大 的 机 制 。apply () 可 把 函数 应 用 到 数组 的 某 个 维度 上， 而 lapply() 和 sapply() 则 可 将 函数 
应 用 到 列表 (list) 上 。 你 将 在 下 一 节 中 看 到 sapply() ( 它 是 1apply () 的 更 好 用 的 版 本 ) 的 一 
个 示例 。 

你 已 经 拥有 了 解决 5.1 节 中 数据 处 理 问题 所 需 的 所 有 工具 ， 现 在 ， 让 我 们 小 试 身手 。 


5.3 ”数据 处 理 难题 的 一 套 解决 方案 


5.1 节 中 提出 的 问题 是 : 将 学 生 的 各 科 考 试 成 绩 组 合 为 单一 的 成 绩 衡量 指标 ， 基 于 相对 名 次 
( 前 20%、 下 20%、 等 等 ) 给 出 从 A 到 F 的 评分 ,根据 学 生 姓 氏 和 名 字 的 首 字母 对 花 名 册 进 行 排序 。 
代码 清单 -6 给 出 了 一 种 解决 方案 。 


代码 清单 5-6 示例 的 一 种 解决 方案 


SS “OPELONnS (drodLtes2) 
Rp 









































> Student <- c("John Davis", "Angela Williams", "Bullwinkle Moose", 
"David Jones", "Janice Markhammer", "Cheryl Cushing", 
"Reuven Ytzrhak", "Greg Knox", "Joel England", 


"Mary Rayburn") 
Ma 下 用 < "(S02, 600% AL2., B358; M9 "S12 MALO ‘6257 ,5573 522) 
Solende. < C(95 997 “80 827 75; B53 .B80 95 B97 B86) 
English er "C2 22 "8, 7719 20r D8 "TD B30 27; "18) 
roster <- data.frame(Student, Math, Science, English, 
stringsAsFactors=FALSE) 


步骤 2 下 
> Z <- scale(roster[,2:4]) 


步骤 3 > Score <- apply(z, 1, mean) 计算 综合 得 分 
> roster <- cbindl(roster, score) 


步 又 4 上 
y <- dauantile(score，c(. 


> B87 6% dw72)) 
> rostersgrade[score >= y[1]] <- "A" 
步 又 5 > rostersgrade[score <Y[1] & score >= y[2]] <- "B 二 4 秆 : 王 
步 又 > rostersgrade[score < yl[2] & score >= y[3]] <- "C 对 学 生 评 分 
> rostersgrade[score < y[3] & score >= y[4]] <- "D 
> TosterSgrade [score < y[4]] <- "F" 


步骤 6 人 
> name <- strsplit((rosters$sStudent), " ") 
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如 > Lastname <- sapply (name, "[", 2) 
步骤 7 > Firstname <- sapply (name, "[", 1) 抽取 姓氏 和 名 字 
> roster <- cbind(Firstname,Lastname, roster[,-1]) 


> roster <- roster[lorder (Lastname,Firstname),] Re 
网 根据 姓氏 和 名 字 排序 
步骤 8 





roster 
Firstname Lastname Math Science English score grade 

6 Cheryl Cushing S12 85 28 Q%35 6 

1 John Davis 502 95 25 0.56 B 

9 Joel England 573 89 27 0.70 B 

4 David Jones 358 82 15 | F 

8 Greg Knox 625 95 30 目 东 号 各 A 

5 Janice Markhammer 495 29 20 0.63 D 

3 Bullwinkle Moose 412 80 18 =0286 D 

10 Mary Rayburn 522 86 18 = 二 8 0: 

2 Angela Williams 600 99 2 之 0..92 A 

Reuven Ytzrhak 410 80 5 1 :05 F 
以 上 代码 写 得 比较 紧凑 ， 逐 步 分解 如 下 。 
步骤 1 原始 的 学 生花 名 册 已 经 给 出 了 。options (aigits=2) 限 定 了 输出 小 数 点 后 数字 的 





位 数 ， 并 且 让 输出 更 容易 阅读 : 


> options (digits=2) 


> roster 
Student Math Science English 

John Davis 502 95 25 
2 Angela Williams 600 99 人 2 这 
3 Bullwinkle Moose 412 80 18 
4 David Jones 358 82 ES 
5 Janice Markhammer 495 19 20 
6 Cheryl Cushing 512 85 28 
包 Reuven Ytzrhak 410 80 15 
8 Greg Knox 625 95 30 
9 Joel England S73 89 2 
10 Mary Rayburn G22 86 18 


步骤 2 由 于 数学 、 科 学 和 英语 考试 的 分 值 不 同 ( 均值 和 标准 差 相去 其 远 )， 在 组 合 之 前 需 
要 先 让 它们 变 得 可 以 比较 。 一 种 方法 是 将 变量 进行 标准 化 ， 这 样 每 科 考 试 的 成 绩 就 都 是 用 单位 
标准 差 来 表示 ， 而 不 是 以 原始 的 尺度 来 表示 了 。 这 个 过 程 可 以 使 用 scale () 函数 来 实现 : 


> Z <- scale(roster[,2:4]) 
< 
































Math Science English 








了 0.013 1.078 9587 
2 1.143 17591 O03:7 
3¥] =L:026” =0..847 =0" 69:7 
水 SLT:649 0590 -1.247 
Dad, “0596815489 -0.330 
6, 0 上 28 0,205 1.137 
7,] -1.049 -0.847 -1.247 
8 1.432 1 078 1.504 





[3 站” .0832 0.308 
[0 “O05243: 0 


步骤 3 然后 ， 可 以 通过 国 数 mean ( 


0.954 
= 0697 


cbind() 将 其 添加 到 花 名 有 册 中 : 


> Score <- apply(z, 1, 
> roster <- cbind(roste 
> roster 
Student 
John Davis 
Angela Williams 
Bullwinkle Moose 
David Jones 
Janice Markhammer 
Cheryl Cushing 
Reuven Ytzrhak 
Greg Knox 
Joel England 
0 Mary Rayburn 


卢 \o~ mn 和 PP 哺 


mean) 


r, score) 


Math Science 


5.02 
600 
412 
358 
495 
51 这 
410 
625 
S33. 
S22 


95 
9.9 
80 
82 
5 
85 
80 
95 
89 
86 


步骤 4 也 数 quantile() 给 出 了 学 生 综 合 
0.74，B 的 分 界 点 为 0.44， 等 等 。 


>y <- quantile(rosters 
yy 

80% 60% 40% 20% 
0.74 0.44 -0.36 -0.89 





SCOIe, 


O(a 


) 来 计算 各 行 


English 


25 
22 





的 均值 以 获得 综合 


SCOTrTS 


=0% 


:359 
.924 
.857 
.162 
.629 
5353 
.048 
.338 
:6098 


LY 


得 分 ， 并 使 用 函数 


得 分 的 百 分 位 数 。 可 以 看 到 ， 成 绩 为 A 的 分 界 点 为 


6,.4,.2)) 


步骤 5 ”通过 使 用 逻辑 运算 符 ， 你 可 以 将 学 生 的 百 分 位 数 排名 重 编码 为 一 个 新 的 类 别 型 成 绩 
变量 。 下 面 在 数据 框 roster 中 创建 了 变量 grade。 


roster$grade[score >= 
roster$sgrade[score 
roster$sgrade[score 
roster$sgrade[score 
roster$sgrade[score 
roster 


VV Vv VVvyV 
二 站 


Student 

John Davis 

Angela Williams 
Bullwinkle Moose 
David Jones 
Janice Markhammer 
Cheryl Cushing 
Reuven Ytzrhak 
Greg Knox 

Joel England 

0 Mary Rayburn 


FD 0 ON 


Math Science 


502 
600 
412 
358 
495 
S12 
410 
625 
S573 
522 


95 
99 
80 
82 
75 
85 
80 
95 
89 
86 


步骤 6 你 将 使 用 函数 strsplit () 


strsplit () 应 用 到 一 个 字符 





English 


25 
22 





空格 为 界 把 学 生 姓 名 拆 分 为 姓氏 和 名字。 把 


"Bn 
"Cn 
"Dn" 


SCOTe 


=0.s 


D59 
.924 
.857 
"162 
“0629 
4353 
.048 
338 
.698 


177 


grade 


ts 


O 〇 
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> name <- strsplit((rostersSstudent), " ") 














> name 
1] aohms MDaviss 
2 
1] "Angela" "Williams" 
3 
1] "Bullwinkle" "Moose" 
4 
"David" "Jones" 
3 
1] "Janice" "Markhammer" 
6 
1 WONneryl. Toushingy 
"Reuven" "Ytzrhak" 
8 
"Greg" "Knox" 
9 
"Joel" "England" 
| 
"Mary" "Rayburn" 














步骤 7 你 可 以 使 用 函数 sapply () 提取 列表 中 每 个 成 分 的 第 一 个 元 素 ， 放 入 一 个 储存 名 字 
的 向 量 Firstname， 并 提取 每 个 成 分 的 第 二 个 元 素 ， 放 和 人 一 个 储存 姓氏 的 向 量 Lastname。"[" 
是 一 个 可 以 提取 某 个 对 象 的 一 部 分 的 函数 一 一 在 这 里 它 是 用 来 提取 列表 name 各 成 分 中 的 第 一 
个 或 第 二 个 元 素 的 。 你 将 使 用 cbina() 把 它们 添加 到 花 名 册 中 。 由 于 已 经 不 再 需要 student 变 
量 ,， 可 以 将 其 丢弃 (在 下 标 中 使 用 -1 )。 























> Firstname <- sapply (name, "[", 1) 
> Lastname <- sapply (name, "[", 2) 
> roster <- cbind(Firstname, Lastname, roster[,-1]) 
> roster 

Firstname Lastname Math Science English score grade 
1 John Davis 502 95 25 05559 B 
2 Angela Williams 600 99 22 0.924 A 
3 Bullwinkle Moose 412 80 18 085Y B 
4 David Jones 358 82 下 8 .162 F 
5 Janice Markhammer 495 5 20 -0.629 D 
6 Cheryl Cushing SE2 85 28 QS33 o 
7 Reuven Ytzrhak 410 80 TE5 -1.048 F 
8 Greg Knox 625 9;5 30 1:338 A 
> Joel England 5 89 27 0.698 B 
10 Mary Rayburn 522 86 8 OL GC 
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步骤 8 最 后 ， 可 以 使 用 函数 order () 依 姓氏 和 名 字 对 数据 集 进行 排序 : 


> roster[lorder (Lastname,Firstname),] 





Firstname Lastname Math Science English score grade 

6 Cheryl Cushing S22 85 28 O35 C 
小 John Davis 502 95 25 0.56 B 
9 Joel England 573 89 2 0.70 B 
4 David Jones 358 82 15 SD, 6 F 
8 Greg Knox 625 95 30 1.34 A 
5 Janice Markhammer 495 Wh 20 ,0.63 全 
3 Bullwinkle Moose 小灶 之 80 18 -0.86 D 
10 Mary Rayburn B22 86 18 -0.18 ee 
2 Angela Williams 600 99 pt 0.92 A 
如 Reuven Ytzrhak 410 80 15 -1.05 F 
瞧 ! 小 事 一 桩 ! 


完成 这 些 任 务 的 方式 有 许多 ,只 是 以 上 代码 体现 了 相应 函数 的 设计 初衷 。 现 在 到 学 习 控 制 结 
构 和 自己 编写 函数 的 时 候 了 。 


5.4 控制 流 


在 正常 情况 下 ，R 程 序 中 的 语句 是 从 上 至 下 顺序 执行 的 。 但 有 时 你 可 能 希望 重复 执行 某 些 语 
句 ， 仅 在 满足 特定 条 件 的 情况 下 执行 另外 的 语句 。 这 就 是 控制 流 结构 发 挥 作用 的 地 方 了 。 
R 拥 有 一 般 现代 编程 语言 中 都 有 的 标准 控制 结构 。 首 先 你 将 看 到 用 于 条 件 执行 的 结构 ， 接 下 
来 是 用 于 循环 执行 的 结构 。 
为 了 理解 贯穿 本 节 的 语法 示例 ， 请 牢记 以 下 概念 : 
口 语句 ( statement ) 是 一 条 单独 的 R 语 句 或 一 组 复合 语句 ( 包含 在 花 括 号 { } 中 的 一 组 R 
语句 ， 使 用 分 号 分 隔 ); 
口 条 件 ( cona ) 是 一 条 最 终 被 解析 为 真 (TRUE ) 或 假 (FALSE ) 的 表达 式 ; 
口 表达 式 ( expr) 是 一 条 数值 或 字符 串 的 求 值 语 句 ; 
口 序列 ( sea) 是 一 个 数值 或 字符 串 序 列 。 
在 讨论 过 控制 流 的 构造 后 ， 我 们 将 学 习 如 何 编写 函数 。 
5.4.1 重复 和 循环 
循环 结构 重复 地 执行 一 个 或 一 系列 语句 ， 直 到 某 个 条 件 不 为 真 为 止 。 循 环 结构 包括 for 和 
while 结 构 。 
1. for 结 构 
for 循 环 重复 地 执行 一 个 语句 ， 直 到 某 个 变量 的 值 不 再 包含 在 序列 sea 中 为 止 。 语 法 为 : 
for (var in seg) statement 


在 下 例 中 : 
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for (i in 1:10) print("Hello") 
单词 Hello 被 输出 了 10 次 。 

2. while 结 构 

while 循 环 重复 地 执行 一 个 语句 ， 直 到 条 件 不 为 真 为 止 。 语 法 为 : 

while (cond) statement 

作为 第 二 个 例子 ， 代 码 : 

到 二 

while (i > 0) {print ("Hello"); i <- i - 1} 
又 将 单词 Hello 输 出 了 10 次 。 请 确保 括号 内 while 的 条 件 语句 能 够 改变 , 即 计 它 在 某 个 时 刻 不 再 为 
真一 一 否则 循环 将 永 不 停止 ! 在 上 例 中 ,语句 : 

和 
在 每 步 循环 中 为 对 象 i 减 去 !， 这 样 在 十 次 循环 过 后 ， 它 就 不 再 大 于 0 了 。 反 之 ， 如 果 在 每 步 循环 
都 加 1 的 话 ，R 将 不 停 地 打招呼 。 这 也 是 while 循 环 可 能 较 其 他 循环 结构 更 危险 的 原因 。 

在 处 理 大 数据 集中 的 行 和 列 时 ，R 中 的 循环 可 能 比较 低 效 费时 。 只 要 可 能 ， 最 好 联 用 R 中 的 
内 建 数值 /字符 处 理 函 数 和 apply 族 函数 。 


5.4.2 ”条件 执行 
在 条 件 执行 结构 中 ， 一 条 或 一 组 语句 仅 在 满足 一 个 指定 条 件 时 执行 。 条 件 执行 结构 包括 


if-else、ifelse 和 和 switch。 

1. if-else 结 构 

控制 结构 if-else 在 某 个 给 定 条 件 为 真 时 执行 语句 。 也 可 以 同时 在 条 件 为 假 时 执行 另外 的 语 
句 。 语 法 为 : 

if (cond) statement 

if (cond) statementl1 else statement2 


示例 如 下 : 


if (is.character (grade)) grade <- as.factor(grade) 


if (!is.factor(grade)) grade <- as.factor(grade) else print ("Grade already 
is a factor") 



































在 第 一 个 实例 中 , 如 果 grage 是 一 个 字符 向 量 , 它 就 会 被 转换 为 一 个 因子 。 在 第 二 个 实例 中 ， 
两 个 语句 择 其 一 执行 。 如 果 gragde 不 是 一 个 因子 ( 注意 符号 ! )， 它 就 会 被 转换 为 一 个 因子 。 如 果 
它 是 一 个 因子 ， 就 会 输出 一 段 信息 。 

2. ifelse 结 构 

ifelse 结 构 是 if-else 结 构 比 较 紧 凑 的 向 量化 版 本 ， 其 语法 为 : 


ifelse(cond, statementi1, statement2) 
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若 cond 为 TRUE， 则 执行 第 一 个 语句 ; 若 cond 为 FALSE， 则 执行 第 二 个 语句 。 示 例如 下 : 


ifelse(score > 0.5, print ("Passed"), print ("Failed")) 
outcome <- ifelse (score > 0.5, "Passed", "Failed") 


在 程序 的 行为 是 二 元 时 ， 或 者 希望 结构 的 输入 和 输出 均 为 向 量 时 ， 请 使 用 ifelse。 

3. switch 结 构 

switch 根 据 一 个 表达 式 的 值 选 择 语句 执行 。 语 法 为 : 

switch(expr, ...) 
其 中 的 .. .表示 与 expr 的 各 种 可 能 输出 值 绑 定 的 语句 。 通 过 观察 代码 清单 -7 中 的 代码 ， 可 以 轻 
松 地 理解 switch 的 工作 原理 。 


代码 清单 5-7 一 个 switch 示 例 












































> feelings <- c("sad", "afraid") 
> for (i in feelings) 
We 区 6NE 
Switch ( 工 ， 

happy = "I am glad you are happy", 
afraid = "There is nothing to fear", 
sad = "Cheer up", 
angry = "Calm down now" 


) 
) 


[1] "Cheer up" 
[1] "There is nothing to fear" 


虽然 这 个 例子 比较 幼稚 ,但 它 展示 了 switch 的 主要 功能 。 你 将 在 下 一 节 学 习 如 何 使 用 
switch 编 写 自己 的 函数 。 


5.5 用 户 自 编 函 数 


R 的 最 大 优点 之 一 就 是 用 户 可 以 自行 添加 子 数 。 
成 的 。 一 个 函数 的 结构 看 起 来 大 致 如 此 : 
myfunction <- function(argl, arg2, ... )({ 
Statements 


return (object) 


} 
函数 中 的 对 象 只 在 函数 内 部 使 用 。 返回 对 象 的 数据 类 型 是 任意 的 ， 从 标量 到 列表 丝 可 。 让 我 们 看 
一 个 示例 。 

假设 你 想 编写 一 个 函数 , 用 来 计算 数据 对 象 的 集中 趋势 和 散布 情况 。 此 函数 应 当 可 以 选择 性 
地 给 出 参数 统计 量 ( 均值 和 标准 差 ) 和 非 参 数 统计 量 ( 中 位 数 和 绝对 中 位 差 )。 结 果 应 当 以 一 个 
含 名称 列 表 的 形式 给 出 。 另 外 , 用 户 应 当 可 以 选择 是 否 自动 输出 结果 。 除 非 另 外 指定 ， 和 否则 此 函 
数 的 默认 行为 应 当 是 计算 参数 统计 量 并 且 不 输出 结果 。 代 码 清 单 5-8 给 出 了 一 种 解答 。 














| 





事实 上 ，R 中 的 许多 函数 都 是 由 已 有 隐 数 构 


er 
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代码 清单 5-8 mystats () : 一 个 由 用 户 编 写 的 描述 性 统计 量 计算 函数 


mystats <- function(x, parametric=TRUE, print=FALSE) { 
if (parametric) { 
center <- mean(x); spread <- sd(x) 
} else { 
center <- median (x); Spread <- mad (x) 
} 


if (print & parametric) { 


cat("Means; ‘center; "Nn" "SD Spread;i  “\n") 
} else if (print & !parametric) { 
cat ("Median=", center, "\n", "MAD=", spread, "\n") 


} 


result <- list(center=center, spread=spread) 
return(result) 


} 
要 看 此 函数 的 实战 情况 , 首先 需要 生成 一 些 数据 ( 服从 正 态 分 布 的 , 大 小 为 500 的 随机 样本 ): 


set.seed(1234) 
X <- rnorm(500) 


在 执行 语句 : 

y <- mystats (x) 
之 后 ，y$center 将 包含 均值 (0.001 84 )，y$spread 将 包含 标准 差 ( 1.03 )， 并 且 没 有 输出 结果 。 
如 果 执 行 语句 : 


y <- mystats (x, parametric=FALSE, print=TRUE) 


ys$center 将 包含 中 位 数 ( -0.0207 )，y$spreagd 将 包含 绝对 中 位 差 ( 1.001 )。 男 外 ， 还 会 输出 以 
下 结果 : 


Median= -0.0207 
MAD= 1 


下 面 让 我 们 看 一 个 使 用 了 switch 结 构 的 用 户 自 编 函 数 ， 此 函数 可 让 用 户 选择 输出 当天 日 期 
的 格式 。 在 函数 声明 中 为 参数 指定 的 值 将 作为 其 默认 值 。 在 函数 mydate() 中 , 如 果 未 指定 type， 
则 long 将 为 默认 的 日 期 格式 : 


mydate <- function(type="long") { 
switch (type, 
long = format (Sys.time(), "%A %B %d %Y"), 
Short = format (Sys.time(), "%m-%d-%y"), 
cat (type, "is not a recognized type\n") 
) 





} 
实战 中 的 函数 如 下 : 


> mydate("long") 
[1] "Monday July 14 2014" 
> mydate("short") 
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[1] "07-14-14" 

> mydate() 

[1] "Monday July 14 2014" 

> mydate ("medium") 

medium is not a recognized type 


请 注意 ， 函 数 cat () 仅 会 在 输入 的 日 期 格式 类 型 不 匹配 "long" 或 "short" 时 执行 。 使 用 一 
个 表达 式 来 捕获 用 户 的 错误 输入 的 参数 值 通常 来 说 是 一 个 好 主意 。 

有 若干 函数 可 以 用 来 为 函数 添加 错误 捕获 和 纠正 功能 ,你 可 以 使 用 函数 warning () 来 生成 一 
条 错误 提示 信息 ， 用 message () 来 生成 一 条 诊断 信息 ,或 用 stop () 停止 当前 表达 式 的 执行 并 提 
示 错 误 。20.5 节 将 会 更 加 详细 地 讨论 错误 捕捉 和 调试 。 

在 创建 好 自己 的 函数 以 后 ， 你 可 能 希望 在 每 个 会 话 中 都 能 直接 使 用 它们 。 附 录 B 描 述 了 如 何 
定制 R 环 境 ， 以 使 R 启 动 时 自动 读 取 用 户 编写 的 函数 。 我 们 将 在 第 6 章 和 第 8 章 中 看 到 更 多 的 用 户 
自 编 函 数 示例 。 

你 可 以 使 用 本 节 中 提供 的 基本 技术 完成 很 多 工作 ,第 20 章 的 内 容 更 加 详细 地 涵盖 了 控制 流 和 
其 他 编程 主题 。 第 21 章 涵盖 了 如 何 创建 包 。 如 果 你 想 要 探索 编写 函数 的 微妙 之 处 , 或 编写 可 以 分 
发 给 他 人 使 用 的 专业 级 代码 , 个 人 推荐 阅读 这 两 章 , 然后 阅读 两 本 优秀 的 书籍 , 你 可 在 本 书 末尾 
的 参考 文献 部 分 找到 : Venables & Ripley ( 2000 ) 以 及 Chambers ( 2008 )。 这 两 本 书 共同 提供 了 大 
量 细节 和 众多 示例 。 

函数 的 编写 就 讲 到 这 里 ， 我 们 将 以 对 数据 整合 和 重 塑 的 讨论 来 结束 本 章 。 


5.6 ”整合 与 重 构 


R 中 提供 了 许多 用 来 整合 (aggregate ) 和 重 塑 ( reshape ) 数据 的 强大 方法 。 在 整合 数据 时 ， 
往往 将 多 组 观测 替换 为 根据 这 些 观测 计算 的 描述 性 统计 量 。 在 重 塑 数据 时 , 则 会 通过 修改 数据 的 
结构 ( 行 和 列 ) 来 决定 数据 的 组 织 方 式 。 本 节 描 述 了 用 来 完成 这 些 任务 的 多 种 方式 。 

在 接 下 来 的 两 个 小 节 中 , 我 们 将 使 用 已 包含 在 R 基 本 安装 中 的 数据 框 mt cars。 这 个 数据 集 是 
从 Motor Trend 杂 志 (1974 ) 提取 的 , 它 描述 了 34 种 车 型 的 设计 和 性 能 特点 ( 汽 币 数 、 排 量 、 马 力 、 
每 加 仑 汽油 行驶 的 英里 数 ， 等 等 )。 要 了 解 此 数据 集 的 更 多 信息 ， 请 参阅 help (mtcars) 。 


5.6.1 转 置 


转 置 〈《 反 转行 和 列 ) 也 许 是 重 塑 数据 集 的 众多 方法 中 最 简单 的 一 个 了 。 使 用 函数 t () 即 可 
对 一 个 和 矩阵 或 数据 框 进 行 转 置 。 对 于 后 者 ， 行 名 将 成 为 变量 ( 列 ) 名 。 代 码 清单 5-9 展 示 了 一 
个 例子 。 


代码 清单 5-9 数据 集 的 转 置 


和 人] 
> cars 


































































































































































































mpg cyl disp hp 
Mazda RX4 2 6 160 110 
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Mazda RX4 Wag 并 0) 6 160 110 
Datsun 710 22.58 4 108 93 
Hornet 4 Drive 2 6. .258 10 
Hornet Sportabout 18.7 8 360 175 
> t(cars) 

Mazda RX4 Mazda RX4 Wag Datsun 710 Hornet 4 Drive Hornet Sportabout 
mpg 2 21 22...8 21 ;4 下 8 
cyl 6 6 4.0 全 B80 
disp 160 160 108.0 258..0 360.0 
hp 110 110 93.0 L100 了 50 








为 了 节约 空间 , 代码 清单 5-9 仅 使 用 了 mt cars 数 据 集 的 一 个 子 集 。, 在 本 节 稍 后 讲解 reshape2 
包 的 时 候 ， 你 将 看 到 一 种 更 为 灵活 的 数据 转 置 方式 。 


5.6.2 ”整合 数据 

在 R 中 使 用 一 个 或 多 个 by 变量 和 一 个 预先 定义 好 的 函数 来 折 释 ( collapse ) 数 据 是 比较 容易 的 。 
调用 格式 为 : 

aggregate(x, by, FUN) 
其 中 x 是 待 折 县 的 数据 对 象 ，by 是 一 个 变量 名 组 成 的 列表 ， 这 些 变量 将 被 去 掉 以 形成 新 的 观测 ， 
而 FUN 则 是 用 来 计算 描述 性 统计 量 的 标量 函数 ， 它 将 被 用 来 计算 新 观测 中 的 值 。 

作为 一 个 示例 ， 我 们 将 根据 汽 握 数 和 挡 位 数 整合 mtcars 数 据 ， 并 返回 各 个 数值 型 变量 的 均 
值 ( 见 代码 清单 5-10 )。 
代码 清单 5-10 ”整合 数据 


> options (digits=3) 


























> _ attach (mtcars) 
> aggdata <-aggregate(mtcars, by=list(cyl,gear), FUN=mean, na.rm=TRUE) 
> aggdata 

Group.1 Group.2 mpg cyl disp hp drat wt qsec vs am gear carb 
1 4 3 25 A T2097 3370 6 200 LOmO0 3 1.00 
2 6 3 98 G6: "242. LO8 2 92 334 L980 000 37100 
3 8 3: 5% 8 58 194 32 4 LO 17 T7000 0%:00 3 308 
4 4 4 26.9 4 103 76 4.11 2.38 19.6 1.0 0.75 CA se) 
5 6 4 19.8 6 LELMTLG6. 9 T309197 0 QS0 4 4.00 
6 4 5 2:8:2 4 108 102 4.10 1.83 16.8 0.5 1.00 5 20i0 
7 6 S97 G6 LS T75362 2 TDS Qu0" EO 5 .6:00 
8 8 a 8 326 "3300 388 3053 L446 050 L000 D6:.:0.0 


在 结果 中 ，Group .1 表示 汽缸 数量 (4、6 或 8 )，Group .2 代表 挡 位 数 (3、4 或 5 )。 举例 来 说 ， 
拥有 4 个 汽缸 和 3 个 挡 位 车 型 的 每 加 仑 汽油 行驶 英里 数 (mpg ) 均值 为 21.5。 

在 使 用 aggregate() 函数 的 时 候 ，py 中 的 变量 必须 在 一 个 列表 中 ( 即使 只 有 一 个 变量 )。 你 
可 以 在 列表 中 为 各 组 声明 自 定义 的 名 称 ， 例 如 by=list (Group.cyl=cyl, Group. 
gears=gear)。 指 定 的 函数 可 为 任意 的 内 建 或 自 编 函 数 ， 这 就 为 整合 命令 赋予 了 强大 的 力量 。 
但 说 到 力量 ,没有 什么 可 以 比 resnape2 包 更 强 。 
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5.6.3 reshape2 包 




















reshape2 包 "是 一 套 重 构 和 整合 数据 集 的 绝妙 的 万 能 工具 。 由 于 它 的 这 种 万 能 特性 ,可 能 学 
起 来 会 有 一 点 难度 。 我 们 将 慢 慢 地 梳理 整个 过 程 ， 并 使 用 一 个 小 \ 型 数据 集 作 为 示例 ,这 样 每 一 步 
发 生 了 什么 就 很 清晰 了 。 由 于 reshape2 包 并 未 包含 在 R 的 标准 安装 中 ， 在 第 一 次 使 用 它 之 前 需 
要 使 用 install .packages ("reshape2") 进行 安装 。 

大 致 说 来 ， 你 需要 首先 将 数据 融合 ( melt )， 以 使 每 一 行 都 是 唯一 的 标识 符 -变量 组 合 。 然 后 
将 数据 重 铸 (cast ) 为 你 想 要 的 任何 形状 。 在 重 铸 过 程 中 ,你 可 以 使 用 任何 函 
将 使 用 的 数据 集 如 表 5-8 所 示 。 


























表 5-8 原始 数据 集 (mydata) 





ID Time X1 X2 
1 1 9 6 
1 2 3 5 
2 1 6 1 
和 2 2 4 


在 这 个 数据 集中 ， 测 量 ( measurement ) 是 指 最 后 两 列 中 的 值 (5、6、3、5、6、1、2、4)。 
每 个 测量 都 能 够 被 标识 符 变 量 ( 在 本 例 中 ， 标 识 符 是 指 ID 、Time 以 及 观测 属于 X1 还 是 X2 ) 唯一 
地 确定 。 举 例 来 说 ， 在 知道 ID 为 1 、Time 为 1， 以 及 属于 变量 X1 之 后 ， 即 可 确定 测量 值 为 第 一 行 
中 的 5。 

1. 融合 

数据 集 的 融合 是 将 它 重 构 为 这 样 一 种 格式 : 每 个 测量 变量 独占 一 行 , 行 中 带 有 要 唯一 确定 
个 测量 所 需 的 标识 符 变 量 。 要 融合 表 5-8 中 的 数据 ， 可 使 用 以 下 代码 : 


library (reshape2) 
md <- melt (mydata, id=c("ID", "Time")) 


你 将 得 到 如 表 5-9 所 示 的 结构 。 
































表 5-9 融合 后 的 数据 集 


, 
J 
3 
[0 
对 
wl 
膏 





1 Xl 
2 Xl 
1 Xl 
2 Xl 
1 X2 
2 X2 
1 X2 
2 X2 


DO 一 一 PO 一 
玉环 DOW ww 








Qz 由 同一 作者 开发 的 reshape2 包 是 原 reshape 的 重新 设计 版 本 ， 功 能 更 为 强大 。 一 一 译 者 注 
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注意 , 必须 指定 要 唯一 确定 每 个 测量 所 需 的 变 
或 X2 ) 将 由 程序 为 你 自动 创建 。 











既然 已 经 拥有 了 融合 后 的 数据 ， 现 在 就 可 以 使 用 dcast () 











2. 重 铸 
dcast( 


数 将 其 重 塑 。 调 用 格式 为 : 


newdata <- dcast (md, formula, 














) 函数 读 取 已 融合 的 数据 ， 并 使 用 你 提供 和 





量 (ID 和 Time ), 而 表示 测量 变量 名 的 变量 ( XX1 


函数 将 它 重 铸 为 任意 形状 了 。 








公式 和 一 个 ( 可 选 的 ) 用 于 整合 数据 的 函 


fun.aggregate) 





0 formu7a 描 述 
数据 整合 函数 。 其 接受 的 公式 形 如 : 


IOWVar] + Fomwvar2 + ... 








的 ) 


在 这 一 公式 中 ， rowVvarl + rowVvar2 + . 


本 想 要 的 最 后 结 








果 ， 而 fun.aggregate 是 ( 可 选 


~ COolvarl + Colvar2 + ... 





. .定义 了 要 划 掉 的 变量 集合 ， 以 确定 各 行 的 内 容 ， 










































































5 要 
而 colvarl + colvar2 + ... 则 定义 了 要 划 挤 的 、 确 定 各 列 内 容 的 变量 集合 。 参 见 图 $-1 中 的 
重 塑 一 个 数据 集 
执行 整合 不 执行 整合 
mydata 
dcast(md, ID+Time~variable) 
1 1 5 6 
1 2 3 5 
dcast(md, ID~variable, mean) 2 1 6 1 
ID x1 X2 2 : 4 
1 4 5.5 
2 4 2.5 
(d) 
(a) 
md <- melt(mydata, ID=c("ID", "Time")) dcast(md, ID+variable~Time) 
dcast(md, Time~variable, mean) ID Time variable value variable Timel Time 2 
Time 4| X2 1 1 X1 5 
2 2 X1 2 
(b) 
1 1 X2 6 
1 2 X2 5 
dcast(md, ID~Time, mean) 2 1 X2 1 
Time1 Time2 es x1 x1 x2 x2 
Time1 Time2 Time1 Time2 
5 3 6 5 
图 5-1 使 用 函数 melt () 和 acast () 重 塑 数据 





由 于 右 侧 0d、e 和 f) 的 公式 中 并 未 包括 某 个 


函数 ， 所 以 数据 仅 被 重 塑 了 。 反 之 ， 左 侧 的 示 
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例 (a、b 和 c ) 中 指定 了 mean 作 为 整合 函数 ， 从 而 就 对 数据 同时 进行 了 重 塑 与 整合 。 例 如 ， 示 例 
(a) 中 给 出 了 每 个 观测 所 有 时 刻 中 在 X1 和 X2 上 的 均值 ;示例 (b) 则 给 出 了 X1 和 X2 在 时 刻 1 和 时 刻 2 
的 均值 ， 对 不 同 的 观测 进行 了 平均 ; 在 (c) 中 则 是 每 个 观测 在 时 刻 1 和 时 刻 2 的 均值 ， 对 不 同 的 X1 
和 X2 进 行 了 平均 。 

如 你 所 见 ， 函 数 melt () 和 gcast () 提供 了 令 人 惊叹 的 灵活 性 。 很 多 时 候 ， 你 不 得 不 在 进行 
分 析 之 前 重 塑 或 整合 数据 。 举例 来 说 , 在 分 析 重 复 测量 数据 (为 每 个 观测 记录 了 多 个 测量 的 数据 ) 
时 ， 你 通常 需要 将 数据 转化 为 类 似 于 表 5-9 中 所 谓 的 长 格式 。 示 例 参 见 9.6 节 。 





5.7 小 结 


本 章 总 结 了 数 十 种 用 于 人 处理 数据 的 数学 、 统 计 和 概率 函数 。 我 们 看 到 了 如 何 将 这 些 函 数 应 用 
到 范围 广泛 的 数据 对 象 上 ， 其 中 包括 向 量 、 和 矩阵 和 数据 框 。 你 学 习 了 控制 流 结构 的 使 用 方法 : 用 
循环 重复 执行 某 些 语句 , 或 用 分 支 在 满足 某 些 特定 条 件 时 执行 男 外 的 语句 。 然 后 你 编写 了 自己 的 
函数 ， 并 将 它们 应 用 到 数据 上 。 最 后 ， 我 们 探索 了 折 着 、 整 合 以 及 重 构 数据 的 多 种 方法 。 

既然 已 经 集 齐 了 数据 塑 形 ( 没有 别 的 意思 ) 所 需 的 工具 ,你 就 准备 好 告别 第 一 部 分 并 进入 激 
动人 心 的 数据 分 析 世 界 了 ! 在 接 下 来 的 几 音 中 , 我 们 将 探索 多 种 将 数据 转化 为 信息 的 统计 方法 和 
图 形 方法 。 






































_ 第 二 部 分 | 





























索 每 个 变量 了 。 这 将 为 你 
的 值 ， 以 及 选择 合适 的 统 i 





























揭示 变量 间 的 基本 关系 ， 











第 二 部 分 关注 的 是 用 于 才 
个 变量 分 布 的 方法 。 对 于 类 别 型 变 
有 直方 图 、 密 度 图 、 箱 线 图 、 
个 变量 的 分 布 都 是 有 益 的 。 
第 7 章 描 述 了 用 于 概述 单 变量 和 双 变 量 间 关系 的 统计 方法 。 这 一 章 使 用 了 一 个 完整 的 数据 
统计 分 析 开 始 ， 研 究 了 感 兴趣 的 子 集 。 接 下 来 ， 它 描述 了 用 于 概述 























集 ， 以 数值 型 数据 的 描述 忆 























在 第 一 部 分 中 ， 我 们 探索 了 R 环境 ， 并 讨论 了 勾 


变换 ， 并 将 数据 准备 为 适合 进一步 分 析 的 形式 。 在 与 


上 何 从 广泛 
[清理 数据 后 ， 








基本 方法 












































分 布 的 信息 ， 对 型 














E 解 样本 的 特征 、 














数据 源 导入 数据 ， 进 行 组 合 和 
下 一 步 通常 就 是 逐一 控 





识别 意外 的 或 有 问题 




















才 方 法 都 是 有 帮助 的 。 








接 下 来 是 每 次 研究 变量 





并 且 对 于 建立 更 复杂 的 模型 
取 数 据 基本 信息 的 区 



































来 说 是 有 益 的 第 一 步 。 
区 技术 和 统计 方法 。 

















的 两 个 变量 。 这 可 以 








第 6 前 描述 了 可 视 化 单 


和 
2 





























[不 那么 著名 的 小 














图 以 及 比较 新 的 扇形 图 。 对 于 数值 型 变量 ， 
提琴 图 (violin plot)。 每 类 图 形 对 于 理解 单 






































类 别 型 数据 的 频数 分 布 表 和 列 联 表 。 这 一 章 以 对 用 于 理解 两 个 变量 之 间 关 系 的 方法 进行 讨论 作 





结尾 ， 包 括 二 元 相关 关系 的 探索 、- 
在 读 完 这 一 部 分 以 后 ， 作 
异 ， 并 识别 变量 间 显 著 的 关系 。 
































量 





F 方 检验 、t 检验 和 非 参数 方法 。 
] R 中 的 基本 图 形 和 统计 方法 来 描述 数据 、 探 索 组 间 差 











本 章 内 容 

口 条 形 图 、 箱 线 图 和 点 图 
口 饼 图 和 扇形 图 

口 直方 图 与 核 密度 图 























我 们 无 论 在 何 时 分 析 数 据 , 第 一 件 要 做 的 事情 就 是 观察 它 。 对 于 每 个 变量 ,哪些 值 是 最 常见 
的 ? 值 域 是 大 是 小 ? 是否 有 不 寻常 的 观测 ?R 中 提供 了 丰富 的 数据 可 视 化 函数 。 本 章 ， 我 们 将 关 
注 那些 可 以 帮助 理解 单个 类 别 型 或 连续 型 变量 的 图 形 。 主 题 包括 : 
口 将 变量 的 分 布 进行 可 视 化 展示 ; 
口 通过 结果 变量 进行 跨 组 比较 。 

在 以 上 话题 中 ,变量 可 为 连续 型 ( 例如， 以 每 加 仑 汽油 行驶 的 英里 数 表 示 的 里 程 数 ) 或 类 别 
型 ( 例如， 以 无 改善 、 一 定 程度 的 改善 或 明显 改善 表示 的 治疗 结果 )。 在 后 续 各 章 中 ， 我 们 将 探 
索 那 些 展 示 双 变量 和 多 变量 间 关 系 的 图 形 。 

在 接 下 来 的 几 节 中 ,我 们 将 探索 条 形 图 、 人 饼 图 、 扇 形 图 、 直 方 图 、 核 密度 图 、 箱 线 图 、 小 提 
琴 图 和 点 图 的 用 法 。 有 些 图 形 可 能 你 已 经 很 熟悉 了 ， 而 有 些 图 形 ( 如 扇形 图 或 小 提琴 图 ) 则 可 能 
比较 陌生 。 我 们 的 目标 同 往常 一 样 ， 都 是 更 好 地 理解 数据 ， 并 能 够 与 他 人 沟通 这 些 理解 方式 。 

让 我 们 从 条 形 网 开始 。 


6.1 条 形 图 


条 形 图 通过 垂直 的 或 水 平 的 条 形 展示 了 类 别 型 变量 的 分 布 (频数 )。 函 数 barplot () 的 最 简 
单 用 法 是 : 
barplot (height) 
其 中 的 neignt 是 一 个 向 量 或 一 个 矩阵 。 
在 接 下 来 的 示例 中 , 我 们 将 绘制 一 项 探索 类 风湿 性 关节 炎 新 疗法 研究 的 结果 。 数据 已 包含 在 
随 vcd 包 分 发 的 Arthritis 数 据 框 中 。 由 于 vcd 包 并 没 用 包括 在 R 的 默认 安 次 中 ， 请 确保 在 第 一 
次 使 用 之 前 先 安装 它 (install. packages ("ved") )。 
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注意 , 我 们 并 不 需要 使 用 vca 包 来 创建 条 形 图 。 我们 读 入 它 的 原因 是 为 了 使 用 Arthritis 数 
据 集 。 但 我 们 需要 使 用 vcd 包 创建 6.1.5 节 中 描述 的 棘 状 图 ( spinogram )。 


6.1.1 简单 的 条 形 图 


若 height 是 一 个 向 量 ， 则 它 的 值 就 确定 了 各 条 形 的 高 度 ， 并 将 绘制 一 幅 垂 直 的 条 形 图 。 使 
用 选项 horiz=TRUE 则 会 生成 一 幅 水 平 条 形 图 。 你 也 可 以 添加 标注 选项 。 选 项 main 可 添加 一 个 图 
形 标题 ， 而 选项 xl1abp 和 y1ab 则 会 分 别 添加 x 轴 和 y 轴 标签 。 

在 关节 炎 人 研究 中 , 变量 Improved 记 录 了 对 每 位 接受 了 安慰 剂 或 药物 治疗 的 病人 的 治疗 结 


> library (vcd) 
> counts <- table(Arthritis$Improved) 
































> counts 
None Some Marked 
42 14 28 





这 里 我 们 看 到 ，28 位 病人 有 了 明显 改善 ，14 人 有 部 分 改善 ， 而 42 人 没有 改善 。 我 们 将 在 第 7 
章 更 充分 地 讨论 使 用 table () 函数 提取 各 单元 的 计数 的 方法 。 

你 可 以 使 用 一 幅 垂 直 或 水 平 的 条 形 图 来 绘制 变量 counts。 代码 见 代码 清单 6-1, 结果 如 图 6-1 
所 示 。 


代码 清单 6-1 简单 的 条 形 图 

barplot (counts, 
main="Simple Bar Plot", 
xlab="Improvement", ylab="Frequency") 

barplot (counts, 
main="Horizontal Bar Plot", 
xlab="Frequency", ylab="Improvement", 水 平 条 形 图 
horiz=TRUE) 














简单 条 形 图 





Simple Bar Plot Horizontal Bar Plot 
OO 
吐 0 
由 
和 
加 
3 ,= | 
Ky 加 
5 5 2 
© 
I Q 
| 图 | 
| : | 
一 
口 
二 
None Some Marked 0 10 20 30 40 
Improvement Frequency 





图 6-1 简单 的 垂直 条 形 图 和 水 平 条 形 图 





























生成 因素 变量 的 条 形 图 


若 要 绘制 的 类 别 型 变量 是 一 个 因子 或 有 序 型 因子 ， 就 可 以 使 用 函数 plot () 快 速 创 建 一 幅 
重 直 条 形 图 。 由 于 ArthritissImproved 是 一 个 因子 ， 所 以 代码 : 


elon cent ov on nm nl en plocr., 


xlab="Improved", ylab="Frequency") 


aoe (ie le ne Le Teo, none = a= en wonmerel lBeue ele 
xlab="Frequency", ylab="Improved") 


将 和 代码 清单 6-1 生 成 相同 的 条 形 图 ， 而 无 需 使 用 able() 函 数 将 其 表格 化 。 





如 果 标 签 很 长 怎么 办 ?在 6.1.4 节 中 ， 你 将 看 到 微调 标签 的 方法 ， 这 样 它们 就 不 会 重 普 了 。 
6.1.2 ”堆砌 条 形 图 和 分 组 条 形 图 

















如 果 heigh 





























t 是 一 个 矩阵 而 不 是 一 个 向 量 ， 则 绘图 结果 将 是 一 幅 堆砌 条 形 图 或 分 组 条 形 图 。 








若 beside=FALSE ( 默认 值 )， 则 和 矩阵 中 的 每 一 列 都 将 生成 图 中 的 一 个 条 形 ， 各 列 中 的 值 将 给 出 


堆砌 的 “ 子 条 ” 














的 高 度 。 若 beside=TRUE， 则 和 矩阵 中 的 每 一 列 都 表示 一 个 分 组 ， 各 列 中 的 值 将 


并 列 而 不 是 堆砌 。 
考虑 治疗 类 型 和 改善 情况 的 列 联 表 : 


> library (vcd) 
> counts <- table(Arthritiss$sImproved, ArthritissTreatment) 

















> counts 
Treatment 
Improved Placebo Treated 
None 29 13 
Some 有 
Marked 7 这 十 
你 可 以 将 此 结果 绘制 为 一 幅 堆 砌 条 形 图 或 一 幅 分 组 条 形 图 ( 见 代 码 清单 6-2 )。 结 果 如 图 6-2 


所 示 。 


代码 清单 6-2 ”堆砌 条 形 图 和 分 组 条 形 图 


barplot (counts, 


main="Stacked Bar Plot", 
xlab="Treatment", ylab="Frequency", 堆砌 条 形 图 
col=c("red", "yellow","green"), 


legend=rownames (counts)) 
barplot (counts, 
main="Grouped Bar Plot", 


XLaB=" 


Treatment", ylab="Frequency", 分 组 条 形 图 


col=c("red", "yellow", "green"), 
legend=rownames (counts), beside=TRUE) 


第 一 个 barp 


lot () 函数 绘制 了 一 幅 堆 砌 条 形 图 , 而 第 二 个 绘制 了 一 幅 分 组 条 形 图 。 我 们 同时 





使 用 col 选 项 为 绘制 的 条 形 添 加 了 颜色 。 参 数 legend .text 为 图 例 提供 了 各 条 形 的 标签 ( 仅 在 





height 为 一 个 矩阵 时 有 用 )。 


Stacked Bar Plot 
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图 6-2 ”堆砌 条 形 图 和 分 组 条 形 图 


在 第 3 章 中 ,我们 讲解 过 格式 化 和 放置 图 例 的 方法 ， 以 确保 最 好 的 效果 。 请 试 着 重新 排 布 图 
例 的 位 置 以 避免 它们 和 条 形 产 生 受 加 。 


6.1.3 均值 条 形 图 


条 形 图 并 不 一 定 要 基于 计数 数据 或 频率 数据 。 你 可 以 使 用 数据 整合 函数 并 将 结果 传递 给 
barplot () 函数 ,来 创建 表示 均值 、 中 位 数 、 标 准 差 等 的 条 形 图 。 代 码 清单 6-3 展 示 了 一 个 示例 ， 
结果 如 图 6-3 所 示 。 


代码 清单 6-3 ”排序 后 均值 的 条 形 图 


> states <- data.frame(state.region, state.x77) 

means <- aggregate(statessIlliteracy, by=list (state.region), FUN=mean) 
means 

Group.1 英 

下 Northeast 1.00 
2 South 1.74 
3 North Central 0.70 
4 
> 
~ 





























West 1.02 
means <- means [ordqer (means$x),] 
means 0 将 均值 从 小 到 大 排序 
Group.1 和 

3 North Central 0.70 
由 Northeast 1.00 
4 West 1.02 
之 Southn 1.74 
a 
> 


:天 加 本 本 
barplot (means$x, names.arg=means$Group.1) 4 
title("Mean Illiteracy Rate") 





Mean llliteracy Rate 


了 


North Central Northeast West South 


图 6-3 ”美国 各 地 区 平均 文盲 率 排序 的 条 形 图 


代码 清单 6-3 将 均值 从 小 到 大 排序 @。 同 时 注意 ,使 用 title () 函数 @ 与 调用 plot () 时 添加 
main 选 项 是 等 价 的 , meanssx 是 包含 各 条 形 高 度 的 向 量 , 而 添加 选项 names .arg=means$Group.1 
是 为 了 展示 标签 。 

你 可 以 进一步 完善 这 个 示例 。 各 个 条 形 可 以 使 用 1ines () 函数 绘制 的 线段 连接 起 来 。 你 也 可 
以 使 用 gplots 包 中 的 barplot2() 函数 创建 杰 加 有 置信 区 间 的 均值 条 形 图 。 可 以 通过 
help (barplot2) 看 到 更 多 例子 。 


6.1.4 条 形 图 的 微调 


有 若干 种 方式 可 以 微调 条 形 图 的 外 观 。 例如, 随 着 条 数 的 增多 , 条 形 的 标签 可 能 会 开始 重 肢 。 
你 可 以 使 用 参数 cex .names 来 减 小 字号 。 将 其 指定 为 小 于 1 的 值 可 以 缩小 标签 的 大 小 。 可 选 的 参 
数 names .arg 人 允许 你 指定 一 个 字符 向 量 作 为 条 形 的 标签 名 。 你 同样 可 以 使 用 图 形 参 数 辅助 调整 文 
本 间隔 。 代 码 清单 6-4 给 出 了 一 个 示例 ， 输 出 如 图 6-4 所 示 。 


代码 清单 6-4 ”为 条 形 图 搭配 标签 
par(marsc(S.8r472).) i 
par (las=2) YA 增加 y 边 界 的 大 小 
counts <- table(ArthritissImoroved) 旋转 条 形 的 标签 
barplot (counts, 
main="Treatment Outcome", 


1 游 


1.0 


0.5 


0.0 






























































horiz=TRUE, 缩小 字体 大 小 ， 让 标签 更 合适 
cex.names=0.8, a 
names.arg=c ("No Improvement", "Some Improvement", 


修改 标签 文本 





"Marked Improvement")) 


par () 函数 能 够 让 你 对 R 的 默认 图 形 做 出 大 量 修改 。 详 情 参 阅 第 3 章 。 
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图 6-4 ”微调 了 标签 的 垂直 条 形 图 























6.1.5” 棘 状 图 


在 结束 关于 条 形 图 的 讨论 之 前 ， 让 我 们 再 来 看 一 种 特殊 的 条 形 图 ， 它 称 为 太 状 图 
( spinogram )。 环 状 图 对 堆砌 条 形 图 进行 了 重 缩放 ， 这 样 每 个 条 形 的 高 度 均 为 1， 每 一 段 的 高 度 即 
表示 比例 。 环 状 图 可 由 vca 包 中 的 函数 spine () 绘制 。 以 下 代码 可 以 生成 一 幅 简单 的 棘 状 图 : 

library (ved) 

attach (Arthritis) 6 

counts <- table(Treatment, Improved) 


spine(counts, main="Spinogram Example") 
detach (Arthritis) 


























输出 如 图 6-5 所 示 。 治 疗 组 同安 慰 剂 组 相 比 ， 获 得 显著 改善 的 患者 比例 明显 更 高 。 


Spinogram Example 





Marked 


Some 


Improved 


None 





Placebo Treated 
Treatment 











图 6-5 ”关节 炎 治 疗 结果 的 琼 状 
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除了 条 形 图 ， 饼 图 也 是 一 种 用 于 展示 类 别 型 变量 分 布 的 流行 工具 ， 接 下 来 讨论 它 。 
6.2 人 饼 图 


饼 图 在 商业 世界 中 无 所 不 在 ， 然 而 多 数 统计 学 家 ， 包 括 相 应 R 文 档 的 编写 者 却 都 对 它 持 否定 
态度 。 相对 于 饼 图 , 他 们 更 推荐 使 用 条 形 图 或 点 图 , 因为 相对 于 面积 ， 人们 对 长 度 的 判断 更 精确 。 
也 许 由 于 这 个 原因 ，R 中 饼 图 的 选项 与 其 他 统计 软件 相 比 十 分 有 限 。 

饼 图 可 由 以 下 函数 创建 ; 

pie(x, labels) 

其 中 x 是 一 个 非 负 数值 向 量 ,表示 每 个 扇形 的 面积 , 而 1abels 则 是 表示 各 扇形 标签 的 字符 型 向 量 。 
代码 清单 6-5 给 出 了 四 个 示例 ， 结 果 如 图 6-6 所 示 。 
代码 清单 6-5 ”人 饼 图 


par (mfrow=c (2, 2)) 






































slices <- c(10, 12,4, 16, 8) 将 四 幅 图 形 组 
lbls <- c("US", "UK", "Australia", "Germany", "France") 合 为 一 幅 


pie(slices, labels = lbls, 
main="Simple Pie Chart") 


pct <- round(slices/sum(slices)*100) 

lbls2 <- paste(lbls, " ", pct, "%$", sep="") 为 饼 图 添加 

piel(slices, labels=lbls2, col=rainbow(length(1bls2)), 比例 数值 
main="Pie Chart with Percentages") 


library (plotrix) 


pie3D(slices, labels=lbls,explode=0.1, 、 
main="3D Pie Chart ") 9 从 表格 创建 饼 图 


mytable <- table(state.region) 
lbls3 <- paste (names (mytable), "\n", mytable, sep="") 
pie(mytable, labels = lbls3, 

main="Pie Chart from a Table\n (with sample sizes)") 


首先 , 你 做 了 图 形 设 置 , 这 样 四 幅 图 形 就 会 被 组 合 为 一 幅 @。( 多 幅 图 形 的 组 合 在 第 
绍 过 。 ) 然后 ， 你 输入 了 前 三 幅 图 形 将 会 使 用 的 数据 。 

对 于 第 二 幅 饼 图 加 ， 你 将 样本 数 转换 为 比例 值 , 并 将 这 项 信息 添加 到 了 各 扇形 的 标签 上 。 如 
第 3 章 所 述 ， 第 二 幅 饼 图 使 用 rainbow() 函数 定义 了 各 扇形 的 颜色 。 这 里 的 
rainbow (length (1bls2) ) 将 被 解析 为 rainbow(5) ， 即 为 图 形 提 供 了 五 种 颜色 。 

第 三 幅 是 使 用 plotrix 包 中 的 pie3D() 函数 创建 的 三 维 饼 图 。 请 在 第 一 次 使 用 之 前 先 下 载 并 
安装 这 个 包 。 如 果 说 统计 学 家 们 只 是 不 喜欢 饼 图 的 话 , 那么 他 们 对 三 维 饼 图 的 态度 就 一 定 是 唾弃 
了 (即使 他 们 私下 感觉 三 维 饼 图 好 看 )。 这 是 因为 三 维 效果 无 法 增进 对 数据 的 理解 ， 并 且 被 认为 
是 分 散 注意 力 的 视觉 花瓶 。 

第 四 幅 图 演示 了 如 何 从 表格 创建 饼 图 四。 在 本 例 中 , 你 计算 了 美国 不 同 地 区 的 州 数 ,并 在 绘 
制图 形 之 前 将 此 信息 附加 到 了 标签 上 。 
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UK UK 24% 
US US 20% 
Australia Australia 8% 
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图 6-6 ”人 饼 图 示例 


饼 图 让 比较 各 扇形 的 值 变 得 困难 ( 除非 这 些 值 被 附加 在 标签 上 )。 例 如 ， 观 察 (第 一 幅 ) 最 
简单 的 饼 图 ， 你 能 分 辨 出 美国 (US ) 和 德国 (Germany ) 的 大 小 吗 ? “如果 你 可 以 ， 说 明 你 的 洞 
察 力 比 我 好 。) 为 改善 这 种 状况 ,我 们 创造 了 一 种 称 为 扇形 图 ( fan plot ) 的 饼 图 变种 。 扇 形 图 (Lemon 
多 Tyagi, 2009 ) 提 供 了 一 种 同时 展示 相对 数量 和 相互 差异 的 方法 。 在 R 中 , 扇形 图 是 通过 plotrix 
包 中 的 fan.plot () 函数 实现 的 。 

考虑 以 下 代码 和 结果 图 ( 图 6-7 ): 


library (plotrix) 






slices <=. (LO0, 12,4, 16; :8) 
lbls <- c("US", "UK", "Australia", "Germany", "France") 
fan.plot (slices, labels = lbls, main="Fan Plot") 
Fan Plot 
US 
France UK 
Australia Germany 





图 6-7 





国 别 数据 的 扁 形 图 


在 一 幅 扇形 图 中 , 各 个 扇形 相互 三 加 ， 并 对 半径 做 了 修改 ,这样 所 有 扇形 就 都 是 可 见 的 。 在 
这 里 可 见 德国 对 应 的 扇形 是 最 大 的 ， 而 美国 的 扇形 大 小 约 为 其 60%。 法 国 的 扇形 大 小 似乎 是 德国 
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的 一 半 ， 是 澳大利亚 的 两 倍 。 请 记 住 ， 在 这 里 扇形 的 宽度 (width ) 是 重要 的 ， 而 半径 并 不 重要 。 
如 你 所 见 , 确定 遍 形 图 中 扇形 的 相对 大 小 比 饼 图 要 简单 得 多 。 扇 形 图 虽然 尚未 普及 , 但 它 仍 


然 是 新 生 力 量 。 














既然 已 经 讲 完了 人 饼 图 和 扇形 图 ,就 让 我 们 转 到 直方 图 上 吧 。 与 条 形 图 和 人 饼 图 不 同 ， 直方 图 描 





述 的 是 连续 型 变量 的 分 布 。 


6.3 直方 图 








变量 的 分 布 。 可 以 使 用 如 下 函数 创建 直方 图 : 


hist (x) 





其 中 的 x 是 一 个 由 数据 值 组 成 的 数值 向 量 。 参 数 freq=FALSE 表 示 根 据 概率 密度 而 不 是 频数 绘制 
图 形 。 参 数 breaks 用 于 控制 组 的 数量 。 在 定义 直方 图 中 的 单元 时 ， 默 认 将 生成 等 距 











清单 6-6 提 供 了 绘制 四 种 直方 图 的 代码 ， 绘 制 结果 见 图 6-8。 
代码 清单 6-6 ”直方 图 


par (mfrow=c (2,2)) py 
> 简单 直方 图 
hist(mtcarssmpg) 


hist (mtcarss$mpg, 
breaks=12, 
col="red", 
xlab="Miles Per Gallon", 
main="Colored histogram with 12 bins") 





hist(mtcarssmpg, 

freq=FALSE, 

breaks=12, 

col="red", 

xlab="Miles Per Gallon", 

main="Histogram, rug plot, density curve") 
rug (jitter (mtcarssmpg)) 
lines (density (mtcars$mpg), col="blue", lwd=2) 


X <- mtcarss$smpg 


h<-hist (x, 
breaks=12, 
col="red", 


xlab="Miles Per Gallon", 

main="Histogram with normal curve and box") 
xfit<-seq(min (x), max(x), length=40) 
yfit<-dnorm(xfit, mean=mean (x), sd=sd (x)) 
yfit <- yfit*diff (hsmids[1:2])*length (x) 
lines (xfit, yfit, col="blue", lwd=2) 
box () 








局 








直方 图 通过 在 x 轴 上 将 值 域 分 割 为 一 定数 量 的 组 , 在 y 轴 上 显示 相应 值 的 频数 ,展示 了 连续 型 








| 避 指定 组 数 和 颜色 


| 居 添加 办 须 图 


添加 正 态 密度 


曲线 和 外 框 














转 分 。 代 码 
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图 6-8 ”直方 图 示例 


第 一 幅 直 方 图 @ 展 示 了 未 指定 任何 选项 时 的 默认 图 形 。 这 个 例子 共 创 建 了 五 个 组 , 并 且 显 示 
了 默认 的 标题 和 坐标 轴 标 签 。 对 于 第 二 幅 直 方 图 介 ， 我 们 将 组 数 指定 为 12， 使 用 红色 填充 条 形 ， 
并 添加 了 更 吸引 人 、 更 具 信 息 量 的 标签 和 标题 。 
第 三 幅 直 方 图 全 保留 了 上 一 幅 图 中 的 颜色 、 组 数 、 标 签 和 标题 设置 又 县 加 了 一 条 密度 曲线 
和 轴 须 图 (rug plot )。 这 条 密度 曲线 是 一 个 核 密度 估计 ， 会 在 下 节 中 描述 。 它 为 数据 的 分 布 提供 
了 一 种 更 加 平滑 的 描述 。 我们 使 用 lines () 函数 释 加 了 这 条 蓝 色 、 双 倍 默 认 线条 宽度 的 曲线 。 最 
后 ， 轴 须 图 是 实际 数据 值 的 一 种 一 维 呈 现 方式 。 如 果 数 据 中 有 许多 结 "， 你 可 以 使 用 如 下 代码 将 
轴 须 图 的 数据 打 散 : 

zug(Jitter (mcarssmpag，amount=0.01)) 
这 样 将 向 每 个 数据 点 添加 一 个 小 的 随机 值 (一 个 tamount 之 间 的 均匀 分 布 随机 数 )， 以 避免 重 芭 
的 点 产生 影响 。 

第 四 幅 直 方 图 人 @ 与 第 二 幅 类 似 , 只 是 拥有 一 条 又 加 在 上 面 的 正 态 曲线 和 一 个 将 图 形 围绕 起 来 
的 盒 型 。 用 于 欠 加 正 态 曲线 的 代码 来 源 于 R-help 邮件 列表 上 由 Peter Dalgaard 发 表 的 建议 。 盒 型 是 






















































































Qa 出 现 相同 的 值 ， 称 为 结 (tie )。 一 一 译 者 注 
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使 用 box () 函数 生成 的 。 
6.4” 核 密度 图 


在 上 节 中 ,你 看 到 了 直方 图 上 县 加 的 核 密 度 图 。 用 术语 来 说 , 核 密度 估计 是 用 于 估计 随机 变 
量 概率 密度 函数 的 一 种 非 参 数 方法 。 虽 然 其 数学 细节 已 经 超出 了 本 书 的 范畴 , 但 从 总 体 上 讲 , 核 
密度 图 不 失 为 一 种 用 来 观察 连续 型 变量 分 布 的 有 效 方法 。 绘 制 密度 图 的 方法 (不 县 加 到 另 一 幅 图 
上 方 ) 为 : 

plot (density (x)) 
其 中 的 x 是 一 个 数值 型 向 量 。 由 于 plot () 函数 会 创建 一 幅 新 的 图 形 , 所 以 要 向 一 幅 已 经 存在 的 图 
形 上 妓 加 一 条 密度 曲线 ， 可 以 使 用 lines () 函数 ( 如 代码 清单 6-6 所 示 )。 

代码 清单 6-7 给 出 了 两 幅 核 密度 图 示例 ， 结 果 如 图 6-9 所 示 。 
代码 清单 6-7 核 密度 图 


par (mfrow=c (2,1)) 












































d <- density (mtcarss$mpg) 完全 使 用 默认 设置 
/创建 最 简 图 形 




















plot (gd) 
d <- density (mtcarss$mpg) 添加 一 个 标题 
添加 棕 plot(d, main="Kernel Density of Miles Per Gallon") 2 
色 的 轴 polygon(d, col="red", border="blue") i 
> 。 将 曲线 修改 为 蓝 色 ， 并 使 用 实 
须 图 rug (mtcars$mpg, col="brown") 人 心 红色 填充 曲线 下 方 的 区 域 
density.default(x = mtcars$mpg) 
Es 
二 
> 
OY | 
8 J 
oS T T T T 
10 20 30 40 
N=32 Bandwidth = 2.477 
Kernel Density of Miles Per Gallon 
8 
口 
吕 让 
号 J 
8 3] 
381 . 
oo T T T T 


10 20 30 40 
N =32 Bandwidth = 2.477 


图 6-9” 核 密度 图 
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polygon () 函数 根据 顶点 的 zx 和 ) 坐 标 〈 本 例 中 由 qensity () 函数 提供 ) 绘制 了 多 边 形 。 

核 密度 图 可 用 于 比较 组 间 差异 。 可 能 是 由 于 普遍 缺乏 方便 好 用 的 软件 , 这 种 方法 其 实 完全 没 
有 被 充分 利用 。 幸 运 的 是 ，sm 包 漂亮 地 填补 了 这 一 缺口 。 

使 用 sm 包 中 的 sm.density .compare() 捕 数 可 向 图 形 秦 加 两 组 或 更 多 的 核 密度 图 。 使 用 格 
式 为 : 

sm.density.compare (x, factor) 
其 中 的 x 是 一 个 数值 型 各 量 ，factor 是 一 个 分 组 变量 。 请 在 第 一 次 使 用 sm 包 之 前 安装 它 。 代码 清 
单 6-8 中 提供 了 一 个 示例 ， 它 比较 了 拥有 4 个 、6 个 或 8 个 汽 包 车 型 的 每 加 仑 汽油 行驶 英里 数 。 


代码 清单 6-8 可 比较 的 核 密度 图 
library (sm) 
attach (mtcars) 


CT <= factor(teyly Levelsse(4, .6.8)s 
labels = c("4 cylinder", "6 cylinder", 创建 分 组 因子 


"8 cylinder")) 






























































sm.density.compare (mpg, cyl, xlab="Miles Per Gallon") 绘制 密度 图 
title(main="MPG Distripution by Car Cylinders") 


通过 鼠标 单 击 
colfill<-c(2: (1l+length (levels (cyl.f)))) | 四 添加 图 例 
legend(locator(1), levels(cyl.f), fill=colfil]l) 和 


detach (mtcars) 


首先 载 入 sm 包 ， 并 绑 定 数据 框 mtcars。 在 数据 框 mtcars@@ 中 ， 变 量 cy1 是 一 个 以 4、6 或 8 
码 的 数值 型 变量 。 为 了 向 图 形 提供 值 的 标签 ， 这 里 cyl 转 换 为 名 为 cyl.f 的 因子 。 函 数 
sm.density .compare() 创 建 了 图 形 @， 一 条 title() 语 句 添 加 了 主 标题 。 

最 后 ， 添 加 一 个 图 例 以 增加 可 解释 性 合 。( 图 例 已 在 第 3 章 介 绍 。) 首先 创建 的 是 一 个 颜色 向 
量 ,， 这 里 的 colfi11 值 为 c(2，3，4)。 然 后 通过 legeng() 函数 向 图 形 上 添加 一 个 图 例 。 第 一 
个 参数 值 1ocator (1) 表示 用 鼠标 点 击 想 让 图 例 出 现 的 位 置 来 交互 式 地 放置 这 个 图 例 。 第 二 个 参 
数值 则 是 由 标签 组 成 的 字符 向 量 。 第 三 个 参数 值 使 用 向 量 colfil11 为 cyl.f 的 每 一 个 水 平 指定 了 
种 颜色 。 结 果 如 图 6-10 所 示 。 

如 你 所 见 , 核 密度 网 的 琶 加 不 失 为 一 种 在 某 个 结果 变量 上 跨 组 比较 观测 的 强大 方法 。 你 可 以 
看 到 不 同 组 所 含 值 的 分 布 形状 ， 以 及 不 同 组 之 间 的 重 受 程度 。( 这 段 话 的 寓意 是 ， 我 的 下 一 辆 车 
将 是 四 和 的 一 一 或 是 一 辆 电动 的 。) 

箱 线 图 同样 是 一 项 用 来 可 视 化 分 布 和 组 间 差 异 的 绝 佳 图 形 手段 (并 且 更 常用 )， 我 们 接 下 来 


讨论 它 。 
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MPG Distribution by Car Cylinders 


国 4 cylinder 
6 cylinder 
国 8 cylinder 


Density 





Miles Per Gallon 











图 6-10” 按 汽 饶 个 数 划 分 的 各 车 型 每 加 仑 汽油 行驶 英里 数 的 核 密度 图 











6.5 ” 箱 线 图 
箱 线 图 ( 又 称 盒 须 图 ) 通过 绘制 连续 型 变量 的 五 数 总 括 ， 即 最 小 值 、 下 四 分 位 数 (第 25 百 分 


位 数 )、 中 位 数 (第 50 百 分 位 数 )、 上 四 分 位 数 (第 75 百 分 位 数 ) 以 及 最 大 值 ， 描 述 了 连续 型 变量 
的 分 布 。 箱 线 图 能 够 显示 出 可 能 为 离 群 点 (范围 +1.5*IQR 以 外 的 值 ，IQR 表 示 四 分 位 距 ， 即 上 四 
分 位 数 与 下 四 分 位 数 的 差 值 ) 的 观测 。 例 如 : 

boxplot (mtcarsSmpg，main="Box plot", 
生成 了 如 图 6-11 所 示 的 图 形 。 为 了 图 解 各 个 组 成 部 分 ,我 手工 添加 了 标注 。 


Box plot 














ylab="Miles per Gallon") 


























Miles Per Gallon 


























图 6-11 含 手工 标注 的 箱 线 图 
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默认 情况 下 ， 两 条 须 的 延伸 极限 不 会 超过 盒 型 各 端 加 1.5 倍 四 分 位 距 的 范围 。 此 范围 以 外 的 
值 将 以 点 来 表示 (在 这 里 没有 画 出 )。 

举例 来 说 ， 在 我 们 的 车 型 样本 中 ， 每 加 仑 汽油 行驶 英里 数 的 中 位 数 是 19.2，50% 的 值 都 落 在 
了 15.3 和 22.8 之 间 ， 最 小 值 为 10.4,， 最 大 值 为 33.9。 我 是 如 何 从 图 中 如 此 精确 地 读 出 了 这 些 值 呢 ? 
执行 boxplot .stats (mtcarssmpg) 即 可 输出 用 于 构建 图 形 的 统计 量 ( 换 名 话说， 我 作 浆 了 )。 
图 中 似乎 不 存在 离 群 点 ， 而 且 略 微 正 偏 (上 侧 的 须 较 下 侧 的 须 更 长 )。 


6.5.1 使 用 并 列 箱 线 图 进行 跨 组 比较 
箱 线 图 可 以 展示 单个 变量 或 分 组 变量 。 使 用 格式 为 : 


boxplot (formula, data=dataframe) 


其 中 的 formu1la 是 一 个 公式 ，dataframe 代 表 提 供 数 据 的 数据 框 (或 列表 ), 一 个 示例 公式 为 y ~ 
A， 这 将 为 类 别 型 变量 A 的 每 个 值 并 列 地 生成 数值 型 变量 y 的 箱 线 图 。 公 式 y ~ A*B 则 将 为 类 别 型 
变量 A 和 B 所 有 水 平 的 两 两 组 合生 成 数值 型 变量 y 的 箱 线 图 。 

添加 参数 varwigth=TRUE 将 使 箱 线 图 的 宽度 与 其 样本 大 小 的 平方 根 成 正比 。 参 数 
horizontal=TRUE 可 以 反 转 坐标 轴 的 方向 。 

在 以 下 代码 中 , 我 们 使 用 并 列 箱 线 图 重新 研究 了 四 生 、 六 生 、 八 饶 发 动机 对 每 加 仑 汽油 行驶 
的 英里 数 的 影响 。 结 果 如 图 6-12 所 示 。 

boxplot (mpg ~ cyl, data=mtcars, 

main="Car Mileage Data", 


xlab="Number of Cylinders", 
ylab="Miles Per Gallon") 















































Car Mileage Data 


Miles Per Gallon 





Number of Cylinders 


图 6-12 不 同 汽 饶 数 量 车 型 油耗 的 箱 线 图 
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在 图 6-12 中 可 以 看 到 不 同 组 间 油 耗 的 区 别 非常 明显 。 同 时 也 可 以 发 现 ,六 和 全 车 型 的 每 加 仓 汽 
油 行驶 的 黄 里 数 分 布 较 其 他 两 类 车 型 更 为 均匀 。 与 六 缸 和 八 币 车 型 相 比 , 四 和 佐 车 型 的 每 加 仑 汽油 
行驶 的 英里 数 散布 最 广 ( 且 正 偏 )。 在 八 氏 组 还 有 一 个 离 群 点 。 
箱 线 图 灵活 多 变 ， 通 过 添加 notch=TRUE， 可 以 得 到 含 凹 楼 的 箱 线 图 。 若 两 个 箱 的 止 本 互 不 
重合， 则 表明 它们 的 中 位 数 有 显著 差异 ( Chambers et al.，1983 ，p. 62 )。 以 下 代码 将 为 我 们 的 车 
型 油耗 示例 创建 一 幅 含 凹 桶 的 箱 线 图 : 
boxplot (mpg ~ cyl, data=mtcars, 
TIOt es= 人 PRU 
varwidth=TRUE, 
CoOl= "Ted sy 
main="Car Mileage Data", 


xlab="Number of Cylinders", 
ylab="Miles Per Gallon") 


参数 col 以 红色 填充 了 箱 线 图 ， 而 varwidth=TRUE 则 使 箱 线 图 的 宽度 与 它们 各 自 的 样本 大 小 成 
正比 。 

在 图 6-13 中 可 以 看 到 ， 四 入 、 六 氏 、 八 包车 型 的 油耗 中 位 数 是 不 同 的 。 随 着 汽 饶 数 的 减少 ， 
油耗 明显 降低 。 















































Car Mileage Data 





Miles Per Gallon 














Number of Cylinders 
图 6-13 ”不同 汽 纪 数量 车 型 油耗 的 含 叫 槽 箱 线 图 


最 后 ， 你 可 以 为 多 个 分 组 因子 绘制 箱 线 图 。 代 码 清单 6-9 为 不 同和 负数 和 不 同 变 速 箱 类 型 的 车 
型 绘制 了 每 加 仓 汽 油 行驶 英里 数 的 箱 线 图 ( 图 形 如 图 6-14 所 示 )。 同样 地 , 这 里 使 用 参数 col 为 箱 
线 图 进行 了 着 色 。 请 注意 颜色 的 循环 使 用 。 在 本 例 中 ,共有 六 幅 箱 线 图 和 两 种 指定 的 颜色 ,所 以 
颜色 将 重复 使 用 三 次 。 
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代码 清单 6-9 ”两 个 交叉 因子 的 箱 线 图 





mtcars$cyl.f <- factor(mtcarss$cyl, 创建 汽缸 数 
levels=c (4,6,8), 量 的 因子 
labels=c("4","6","8")) 里 

mtcars$am.f <- factor (mtcars$am, 创建 变速 箱 

levels=c(0,1), 类 型 的 因子 
labels=c("auto", "standard")) 

boxplot (mpg ~ am.f *cyl.f, 

data=mtcars, 
varwidth=TRUE, 生成 箱 线 图 


col=c("gold", "darkgreen"), 
main="MPG Distribution by Auto Type", 
xlab="Auto Type", ylab="Miles Per Gallon") 


MPG Distribution by Auto Type 








Miles Per Gallon 
| 
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20 
| 
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auto.4 standard.4 auto.6 standard.6 auto.8 standard.8 


Auto Type 
图 6-14 ”不 同 变速 箱 类 型 和 汽 饶 数量 车 型 的 箱 线 图 
图 6-14 青 一 次 清晰 地 显示 出 油耗 随 着 饶 数 的 下 降 而 减少 。 对 于 四 和 和 六 包车 型 ， 标准 变速 箱 
( standard ) 的 油耗 更 高 。 但 是 对 于 八 生 车 型 , 油耗 似乎 没有 差别 。 你 也 可 以 从 箱 线 图 的 宽度 看 出 ， 
四 秆 标准 变速 箱 的 车 型 和 八 缸 自动 变速 箱 的 车 型 在 数据 集中 最 常见 。 



































6.5.2 ”小 提琴 图 


在 结束 箱 线 图 的 讨论 之 前 ， 有 必要 研究 一 种 称 为 小 提琴 图 (violin plot ) 的 箱 线 图 变种 。 小 提 
琴 图 是 箱 线 图 与 核 密度 图 的 结合 。 你 可 以 使 用 vioplot 包 中 的 vioplot () 函数 绘制 它 。 请 在 第 一 
次 使 用 之 前 安装 vioplot 包 。 
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vioplot () 函数 的 使 用 格式 为 : 

ViODIOL (XL, S27 sn» Tames=y. Col=) 
其 中 x1，x2，.. .表示 要 绘制 的 一 个 或 多 个 数值 向 量 (将 为 每 个 向 量 绘制 一 幅 小 提 雁 图 )。 参 数 
names 是 小 提 座 图 中 标签 的 字符 向 量 ， 而 col 是 一 个 为 每 幅 小 提琴 图 指定 颜色 的 向 量 。 代 码 清单 
6-10 中 给 出 了 一 个 示例 。 


代码 清单 6-10 “小 提琴 图 

library (vioplot) 

X1L <- mtcarsSmpg [mtcarsScy1==4] 

X2 <- mLcarsSmpg [mtcarsScy1==6] 

X3 <- mtcarsSmpg [mtcarsScy1==8] 

次 主人 站 二 个 让 ( 康 1 7 及 2 这 35 
namess=e("d4 Cyl "6 eylT; "8 eyl".); 
OLSsgolLd™) 





























title("Violin Plots of Miles Per Gallon", ylab="Miles Per Gallon", 
xlab="Number of Cylinders") 


注意 ，vioplot () 函数 要 求 你 将 要 绘制 的 不 同 组 分 离 到 不 同 的 变量 中 。 结 果 如 图 6-15 所 示 。 


Violin Plots of Miles Per Gallon 

















Miles Per Gallon 











T T T 
4 cyl 6cyl 8 cyl 


Number of Cylinders 


图 6-15” 汽 拭 数 量 和 每 加 仑 汽油 行驶 英里 数 的 小 提琴 图 


小 提琴 图 基本 上 是 核 密度 图 以 镜像 方式 在 箱 线 图 上 的 全 加 。 在 图 中 , 白 点 是 中 位 数 , 黑色 盒 
型 的 范围 是 下 四 分 位 点 到 上 四 分 位 点 , 细 黑 线 表 示 须 。 外 部 形状 即 为 核 密度 估计 。 小 提琴 图 还 没 
真正 地 流行 起 来 。 同 样 ， 这 可 能 也 是 由 于 普遍 缺乏 方便 好 用 的 软件 导致 的 。 时 间 会 证 明 一 切 。 

我 们 将 以 点 图 结束 本 章 。 与 之 前 看 到 的 图 形 不 同 ， 点 图 绘制 变量 中 的 所 有 值 。 
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6.6 点 图 


点 图 提供 了 一 种 在 简单 水 平 刻度 上 绘制 大 量 有 标签 值 的 方法 。 你 可 以 使 用 dotchart () 函数 
创建 点 图 ， 格 式 为 : 


dotchart (x, labels=) 


其 中 的 x 是 一 个 数值 向 量 ， 而 1abels 则 是 由 每 个 点 的 标签 组 成 的 向 量 。 你 可 以 通过 添加 参数 
groups 来 选 定 一 个 因子 ， 用 以 指定 x 中 元 素 的 分 组 方式 。 如 果 这 样 做 ， 则 参数 gcolor 可 以 控制 
不 同 组 标签 的 颜色 ，cex 可 以 控制 标签 的 大 小 。 这 里 是 mt cars 数 据 集 的 一 个 示例 : 


dotchart (mtcars$mpg, labels=row.names (mtcars), cex=.7, 
main="Gas Mileage for Car Models", 
xlab="Miles Per Gallon") 


图 结果 已 在 图 6-16 中 给 出 。 


























Gas Mileage for Car Models 





Volvo 142E O 
Maserati Bora 
Ferrari Dino 

Ford PanteraL 
Lotus Europa 
Porsche 914-2 
Fiat X1-9 

Pontiac Firebird 
Camaro Z28 

AMC Javelin 
Dodge Challenger 
Toyota Corona 
Toyota Corolla 
Honda Civic 

Fiat 128 

Chrysler Imperial 





Lincoln Continental 
Cadillac Fleetwood 
Merc 450SLC 
Merc 450SL 

Merc 450SE 

Merc 280C 

Merc 280 

Merc 230 

Merc 240D 

Duster 360 

Valiant 

Hornet Sportabout 
Hornet 4 Drive 
Datsun 710 

Mazda RX4 Wag 
Mazda RX4 





Miles Per Gallon 


图 6-16 ”每 种 车 型 每 加 仓 汽 油 行驶 英里 数 的 点 图 
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图 6-16 可 以 让 你 在 同一 个 水 平 轴 上 观察 每 种 车 型 的 每 加 仑 汽油 行驶 英里 数 。 通 常 来 说 ， 点 图 
在 经 过 排序 并 且 分 组 变量 被 不 同 的 符号 和 颜色 区 分 开 的 时 候 最 有 用 。 代 码 清单 6-11 给 出 了 一 个 示 
例 ， 绘 图 的 结果 如 图 6-17 所 示 。。 


代码 清单 6-11 分组、 排序、 着 色 后 的 点 图 

















将 数值 向 x <- mtcars[lorder (mtcarss$mpg),] SN 根据 每 加 仑 汽油 行驶 英里 数 (从 
量 cyl 转 De Te 最 低 到 最 高 ) 对 数据 杠 mtcars 进 
换 为 一 个 行 排序 ， 结 果 保存 为 数据 框 x 
因子 xscolor[xscy1l==4] <- "red" 添加 一 个 字符 型 向 量 (color) 到 数 
xxScolor [xscy1==6] <- "blue" 据 框 x 中 , 根据 cyl 的 值 , 它 所 含 的 值 
x$color[x$cyl==8] <- "darkgreen" 为 "red"、"blue" 或 "darkgreen" 





dotchart (x$mpg, 


labels = row.names (x), 
a cex=.7, “ee 
ND SOT 二 区 Cy <\、 数 据点 根据 汽 自 数据 框 的 行 名 
ee 负数 量 分 组 (车 辆 型 号 ) 
RS color = xS$color， A 
点 和 标签 的 颜色 _/ ”5ct -19 
来 自 向 量 color main "Gas Mileage for Car Models\ngrouped by cylinder", 


xlab 


在 图 6-17 中 ,许多 特征 第 一 次 明显 起 来 。 你 再 次 看 到 ， 随 着 汽 红 数 的 减少 ， 每 加 仓 汽 油 行驶 
的 英里 数 有 了 增加 ,但 你 同时 也 看 到 了 例外 ,例如 ,Pontiac Firebird 有 8 个 汽 饶 ,但 较 六 饶 的 Mercury 
280C 和 Valiant 的 行驶 英里 数 更 多 。 六 饶 的 Hornet 4 Drive 与 四 氏 的 Volvo 142E 的 每 加 仑 汽油 行驶 英 
里 数 相 同 。 同 样 明 显 的 是 ，Toyota Corolla 的 油耗 最 低 ， 而 Lincoln Continental 和 Cadillac Fleetwood 
是 英里 数 较 低 一 端的 离 群 点 。 

在 本 例 中 , 你 可 以 从 点 图 中 获得 显著 的 洞察 力 ， 因 为 每 个 点 都 有 标签 ,每 个 点 的 值 都 有 其 内 
在 含义 , 并 且 这 些 点 是 以 一 种 能 够 促进 比较 的 方式 排 布 的 。 但 是 随 着 数据 点 的 增多 ,点 图 的 实用 
性 随 之 下 降 。 


"Miles Per Gallon") 






























































注意 点 图 有 许多 变种 。Jacoby ( 2006 ) 对 点 图 进行 了 非常 有 意义 的 讨论 ， 并 且 提 供 了 创新 型 应 
用 的 R 代 码 。 此 外 ，Hmi sc 包 也 提供 了 一 个 带 有 许多 附加 功能 的 点 图 函数 (恰如其分 地 叫 
作 dotchart2 冶 
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图 6-17 各 车 型 依 汽 饶 数量 分 组 的 每 加 仑 汽油 行驶 英里 数 点 图 








6.7 小 结 


本 章 我 们 学 习 了 描述 连续 型 和 类 别 型 变量 的 方法 。 我 们 看 到 了 如 何 用 条 形 图 和 饼 图 ( 在 较 小 
程度 上 ) 了 解 类 别 型 变量 的 分 布 , 以 及 如 何 通 过 堆砌 条 形 图 和 分 组 条 形 图 理解 不 同类 别 型 输出 的 
组 间 差 异 。 我 们 同时 探索 了 直方 图 、 核 密度 图 、 箱 线 图 、 轴 须 图 以 及 点 图 可 视 化 连续 型 变量 分 布 
的 方式 。 最后, 我们 探索 了 使 用 姜 加 的 核 密度 图 、 并 列 箱 线 图 和 分 组 点 图 可 视 化 连续 型 输出 变量 
组 间 差 异 的 方法 。 

在 后 续 各 章 , 我 们 会 将 对 单 变量 的 关注 拓展 到 双 变 量 和 多 变量 图 形 中 。 你 将 看 到 同时 用 图 形 
刻画 许多 变量 间 关 系 的 方法 ,使 用 的 方法 包括 散 点 图 、 多 组 折线 图 、 马 赛 克 图 、 相 关 图 、lattice 
图 形 ， 等 等 。 

下 一 章 , 我 们 将 关注 用 于 描述 分 布 和 二 元 关系 的 定量 统计 方法 以 及 一 类 推断 方法 , 这 类 推断 
方法 可 用 于 评估 变量 间 的 关系 是 真实 存在 的 ， 还 是 由 于 抽样 误差 导致 的 。 
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本 章 内 容 

口 描述 性 统计 分 析 
口 频数 表 和 列 联 表 
口 相关 系数 和 协 方差 
口 t 检 验 

口 非 参 数 统计 











在 前 几 章 中 ， 你 学 习 了 如 何 将 数据 导入 R 中 ， 以 及 如 何 使 用 一 系列 函数 组 织 数据 并 将 其 转换 
成 为 可 用 的 格式 。 然 后 ， 我 们 评述 了 数据 可 视 化 的 基本 方法 。 

在 数据 被 组 织 成 合适 的 形式 后 , 你 也 开始 使 用 图 形 探索 数据 ,而 下 一 步 通 常 就 是 使 用 数值 描 
述 每 个 变量 的 分 布 ， 接 下 来 则 是 两 两 探索 所 选择 变量 之 间 的 关系 。 其 目的 是 回答 如 下 问题 。 
口 各 车 型 的 油耗 如 何 ? 特别 是 在 对 车 型 的 调查 中 ， 每 加 仑 汽油 行驶 英里 数 的 分 布 是 什么 样 
的 ? (均值 、 标 准 差 、 中 位 数 、 值 域 等 。) 
口 在 进行 新 药 实验 后 ， 用 药 组 和 安奈 剂 组 的 治疗 结果 (无 改善 、 一 定 程度 的 改善 、 显 著 的 
改善 ) 相 比 如 何 ? 实验 参与 者 的 性 别 是 否 对 结果 有 影响 ? 
口 收入 和 预期 寿命 的 相关 性 如 何 ” 它 是 否 明显 不 为 零 ? 
口 美国 的 某 些 地 区 是 否 更 有 可 能 因为 你 犯罪 而 将 你 监禁 ?不同 地 区 的 差别 是 否 在 统计 上 
显著 ? 

本 章 , 我 们 将 评述 用 于 生成 基本 的 描述 性 统计 量 和 推断 统计 量 的 RR 函数。 首先 , 我 们 将 着 眼 
于 定量 变量 的 位 置 和 尺度 的 衡量 方式 。 然 后 我 们 将 学 习 生 成 类 别 型 变量 的 频数 表 和 列 联 表 的 方 
法 (以 及 连带 的 卡 方 检验 )。 接 下 来 ,我 们 将 考察 连续 型 和 有 序 型 变量 相关 系数 的 多 种 形式 。 最 
后 ， 我 们 将 转 而 通过 参数 检验 ( t 检 验 ) 和 非 参数 检验 (Mann-Whitney U 检 验 、Kruskal-Wallis 
检验 ) 方法 研究 组 间 差 异 。 虽 然 我 们 关注 的 是 数值 结果 ， 但 也 将 通 篇 提 及 用 于 可 视 化 这 些 结 
的 图 形 方法 。 

本 章 中 涵盖 的 统计 方法 通常 会 在 本 科 第 一 年 的 统计 课程 中 讲授 。 如 果 你 对 这 些 方法 不 熟悉 ， 
有 两 份 优 秀 的 文献 可 供 参 考 : McCall ( 2000 ) 和 Kirk ( 2007 )。 除 此 之 外 ， 对 于 讲 到 的 每 个 主题 ， 
也 有 许多 翔实 的 在 线 资源 可 供 参 考 ( 如 维基 百科 )。 
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7.1 描述 性 统计 分 析 
本 节 中 , 我 们 将 关注 分 析 连 续 型 变量 的 中 心 趋势 、 变 化 性 和 分 布 形状 的 方法 。 为 了 便于 说 明 ， 




















我 们 将 使 用 第 1 章 中 Motor Trend 杂志 的 车 辆 路 试 (mtcars ) 数据 集 。 我 们 的 关注 焦点 是 每 加 仑 汽 
油 行驶 黄 里 数 (mpg )、 马 力 (hp ) 和 车 重 (wt )。 

> myvars <- c("mpg", "hp", "wt") 

> head (mtcars [myvars]) 

mpg hp wt 

Mazda RX4 2 0 EO < 2:,62 

Mazda RX4 Wag 2 .02 TL0. 23588 

Datsun 710 2258 93"， 汉 <3 吧 

Hornet 4 Drive 2 td i 0 ER 2 

Hornet Sportabout 18.7 175 3.44 

Valiant 工 S L005 346 


我 们 将 首先 查看 所 有 32 种 车 型 的 描述 性 统计 量 , 然后 按照 变速 箱 类 型 ( am ) 和 汽缸 数 ( cy1 ) 
考察 描述 性 统计 量 。 变 速 箱 类 型 是 一 个 以 0 表示 自动 挡 、1 表 示 手 动 挡 来 编码 的 二 分 变量 ,而 汽 包 
数 可 为 4、5 或 6。 





























7.1.1 方法 云集 


在 描述 性 统计 量 的 计算 方面 ，R 中 的 选择 多 得 让 人 入 从。 让 我 们 从 基础 安装 中 包含 的 函数 开 
全 ， 然 后 查看 那些 用 户 贡 献 包 中 的 扩展 函数 。 

对 于 基础 安装 ， 你 可 以 使 用 summary () 函数 来 获取 描述 性 统计 量 。 代 码 清单 7-1 展 示 了 一 个 
示例 。 


代码 清单 7-1 通过 summary () 计 算 描 述 性 统计 量 














> "myVares xs eC(MmBog hp CWEt™) 
> summary (mtcars [myvars]) 
mpg hp wt 

Min. 0 本 Min. 5230 Min. tl 
= wt Ob eol ea LS8t: Od 965 LS8t: O02.98 
Median :19.2 Median :123.0 Median :3.33 
Mean 之 ic 下 Mean 3 江水 6 Mean B22 
3 O22 3¢d. Ou L800 3 O36 
Max. 23359 Max. 335a0 Max. Bd2 








summary () 困 数 提供 了 最 小 值 、 最 大 值 、 四 分 位 数 和 数值 型 变量 的 均值 ， 以 及 因子 向 量 和 好 
辑 型 向 量 的 频数 统计 。 你 可 以 使 用 第 5 章 中 的 apply () 函数 或 sapply () 函数 计算 所 选择 的 任意 描 
述 性 统计 量 。 对 于 sapply () 函数 ， 其 使 用 格式 为 : 


sapply (x, FUN, options) 


其 中 的 x 是 你 的 数据 框 (或 怎 阵 )，rUN 为 一 个 任意 的 函数 。 如 果 指 定 了 options， 它 们 将 被 传递 
给 FUN。 你 可 以 在 这 里 插入 的 典型 孙 数 有 mean()、sd()、var()、min()、max()、median()、 
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length() zange() 和 cuantile()o。 畏 数 fivenum() 可 返回 图 基 五 数 总 括 ( Tukey’s five-number 
summary， 即 最 小 值 、 下 四 分 位 数 、 中 位 数 、 上 四 分 位 数 和 最 大 值 )。 

令 人 惊讶 的 是 ， 基 础 安装 并 没有 提供 偏 度 和 峰 度 的 计算 函数 , 不 过 你 可 以 自行 添加 。 代 码 清 
单 7-2 中 的 示例 计算 了 若干 描述 性 统计 量 ， 其 中 包括 偏 度 和 峰 度 。 


代码 清单 7-2 通过 sapply () 计算 描述 性 统计 量 
> mystats <- function(x, na.omit=FALSE)f{ 
if (na.omit) 
x <- x[!is.nal(x)] 

m <- mean (x) 
n <- length (x) 
S <- sd(x) 
skew <- sum( (x-m)^3/s^3)/n 
kurt <- sum( (x-m)^4/s^4)/n - 3 
return(c(n=n, mean=m, stdev=s, skew=skew, kurtosis=kurt)) 








> myvVvars <- CcC("mpg", "hp", "wt") 

> sapply (mtcars[myvars], mystats) 
mpg hp wt 

n 32.000 32.000 32.0000 

mean 20.091 146.688 2172 

stdev 6.027 68.563 0.9785 

skew Qib11 0%726 0.4231 


RurtoBia -20.373 20.136. -0.0227 
对 于 样本 中 的 车 型 , 每 加 仑 汽油 行驶 英里 数 的 平均 值 为 20.1， 标准 差 为 6. 0。 分布 呈现 右 偏 ( 偏 
61 )， 并 且 较 正 态 分 布 稍 平 ( 峰 度 -0.37 )。 如 果 你 对 数据 绘图 ， 这 些 特征 最 显而易见 。 请 注 
， 如 果 你 只 希望 单纯 地 忽略 缺失 值 ， 那 么 应 当 使 用 sapply (mtcars[myvars], mystats, 


na.omit=TRUE) 。 




















7.1.2 更 多 方法 


若 二 用户 贡献 包 都 提供 了 计算 描述 性 统计 量 的 函数 ， 其 中 包括 Hmisc、pastecs 和 psych。 
于 这 些 包 并 未 包括 在 基础 安装 中 ， 所 以 需要 在 首次 使 用 之 前 先进 行 安装 〈 参 考 1.4 节 )。 

Hmisc 包 中 的 daescribe() 函数 可 返回 变量 和 观测 的 数量 、 缺 失 值 和 唯一 值 的 数目 、 平 均值 、 
分 位 数 ， 以 及 五 个 最 大 的 值 和 五 个 最 小 的 值 。 代 码 清单 7-3 提 供 了 一 个 示例 。 


代码 清单 7-3 ”通过 Hmisc 包 中 的 aescribe() 函数 计算 描述 性 统计 量 
> library (Hmisc) 
> Tyvars c= "C(t"mo"; Mb" TwE"™) 
> describe (mcars [myvars]) 












































3 Variables 32 Observations 
mpg 
n missing uniqaque Mean -05 .10 25 50 5. a 90 295 
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32 0 25 20%09° 11200. ° T1434 15:43. 19,.20 22.80, 30.09 ‘31;.30 


lowest : 10%4 13.3 14.3. 14.7 15.0,; highest: 26.0 .27.3 30.4 32.423329 


hp 
n missing unique Mean .05 .10 2 si0 PA} .90 9 
32 0 22 L467 6305. 6600 96350 .123%00. .L80500 243050. 253055 


lowest 52 62, 695- €6 917 highest: 215 230 245 264 335 


wt 
n missing unique Mean 9 .10 2 0 9 .90 “95 
32 0 29 ol TMG ALIS6. m2 sbel 33 36L0. . 40088 5293 


lowest : 1.513 1.615 1.835 1.935 2.140, highest: 3.845 4.070 5.250 5.345 5.424 


pastecs 包 中 有 一 个 名 为 stat .desc() 的 函数 , 它 可 以 计算 种 类 繁多 的 描述 性 统计 量 。, 使 用 
格式 为 : 
stat.desc(x, basic=TRUE, desc=TRUE, norm=FALSE, p=0.95) 


其 中 的 x 是 一 个 数据 框 或 时 间 序 列 。 若 basic=TRUE ( 默认 值 )， 则 计算 其 中 所 有 值 、 空 值 、 缺 失 

值 的 数量 ， 以 及 最 小 值 、 最 大 值 、 值 域 ， 还 有 总 和 。 若 aesc=TRUE ( 同样 也 是 默认 值 )， 则 计算 

中 位 数 、 平 均 数 、 平 均 数 的 标准 误 、 平 均 数 置 信和 度 为 95% 的 置信 区 间 、 方 差 、 标 准 差 以 及 变异 系 

数 。 最 后 ， 若 norm=TRUE ( 不 是 默认 的 )， 则 返回 正 态 分 布 统计 量 ， 包 括 偏 度 和 峰 度 ( 以 及 它们 

的 统计 显著 程度 ) 和 Shapiro-Wikk 正 态 检验 结果 。 这 里 使 用 了 p 值 来 计算 平均 数 的 置信 区 间 ( 默认 
置信 和 度 为 0.95 )。 代 码 清单 7-4 给 出 了 一 个 示例 。 


代码 清单 7-4 ”通过 pastecs 包 中 的 stat .desc() 也 数 计算 描述 性 统计 量 


> library (pastecs) 
















































































> "MY Vare <= C(ImDgr "Shp Wt 
> stat.desc(mtcars[lmyvars]) 

mpg hp wt 
nbr.val 32.00 32.000 32.000 
nbr.null 0.00 0.000 0.000 
nbr.na (op dl 0.000 0.000 
min 10.40 S25:0.00 T3513 
max 33590 1335%i000 5.424 
range 23x50 -283.000 3.911 
sum 642.90 4694.000 102.952 
median T9520 123 000 3.325 
mean 20.09 146.688 .21 
SE.mean :07 12.120 O07:;.173 
CI.mean.0.95 人 24..72:0 Q353 
var 36.32 4700.867 0.957 
std.dev 6.03 685563 0.978 
Coef .var bz3g9 0.467 0.304 





似乎 这 还 不 够 , psych 包 也 拥有 一 个 名 为 aescribe () 的 函数 , 它 可 以 计算 非 缺 失 值 的 数量 、 
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平均 数 、 标 准 差 、 中 位 数 、 截 尾 均值 、 绝 对 中 位 差 、 最 小 值 、 最 大 值 、 值 域 、 偏 度 、 峰 度 和 平均 
值 的 标准 误 。 代 码 清 单 7-5 中 有 一 个 示例 。 


代码 清单 7-5 ”通过 psych 包 中 的 aescribe () 计算 描 述 性 统计 量 
> library (psych) 
Attaching package: 'psych' 
The following object(s) are masked from package:Hmisc : 


describe 
> mVvAaAes Re (mgr Fhe TW) 
> describe(mtcars [myvars]) 
Var n mean sd median trimmed mad min max 


mpg 1 -32 1 20.09. 6:03. :19.20 L970 “Sdl LT0.M0 33590 
hp 2 32 146.69 68.56 123.00 141.19 77.10 52.00 335.00 
wt 3732 3%22 “0a298 3.533 3%19 “O77 S52 


range skew kurtosis se 
mpg 23.50 0.61 O37. “L007 
hp 283.00 0.73 -0.14 12.12 
wt 3.91 0.42 020 ,O05Ty 


一 语 中 的 ， 选 择 多 得 简直 让 人 寸 众 ! 





在 前 面 的 示例 中 ，psych 包 和 Hmisc 包 均 提 供 了 名 为 aesctribe() 的 函数 。R 如 何 知 道 该 
使 用 哪个 呢 ? 简 言 之 ， 如 代码 清单 7-5 所 示 ， 最 后 载 入 的 程序 包 优先 。 在 这 里 ，psych 在 
Hmisc 之 后 被 载 入 ， 然 后 显示 了 一 条 信息 ， 提 示 Hmisc 包 中 的 aescribe() 函数 被 psych 
包 中 的 同名 函数 所 屏蔽 (masked )。 键 入 aescripe() 后 ，R 在 搜索 这 个 函数 时 将 首先 找 
到 psych 包 中 的 遂 0 。 如 果 你 想 改 而 使 用 Hmisc 包 中 的 版 本 ， 可 以 键入 
Hmisc::dqescribe(mt)。 这 个 函数 仍然 在 那里 。 你 只 是 需要 给 予 R 更 多 信息 以 找到 它 。 





你 已 经 了 解 了 如 何 为 整体 的 数据 计算 描述 性 统计 量 , 现在 让 我 们 看 看 如 何 获取 数据 中 各 组 的 
统计 量 。 


7.1.3 ”分 组 计算 描述 性 统计 量 


在 比较 多 组 个 体 或 观测 时 ,关注 的 焦点 经 常 是 各 组 的 描述 性 统计 信息 ,而 不 是 样本 整体 的 描 

述 性 统计 信息 。 同 样 地 ， 在 R 中 完成 这 个 任务 有 若干 种 方法 。 我 们 将 以 获取 变速 箱 类 型 各 水 平 的 
描述 性 统计 量 开始 。 

在 第 5 章 中 ， 我们 讨论 了 整合 数据 的 方法 。 你 可 以 使 用 aggregate() 函数 (5.6.2 节 ) 来 分 组 
获取 描述 性 统计 量 ， 如 代码 清单 7-6 所 示 。 


代码 清单 7-6 ”使 用 aggregate() 分 组 获取 描述 性 统计 量 


> myvars <- c("mpg", "hp", "wt") 








> aggregate(mtcars[myvars], by=list (am=mtcars$am), mean) 
am mpg hp wt 
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1 05 马 “计时 160 Sy Mh 
2 1 24.4 127 2.41 


> aggregate(mtcars[myvars], by=list (am=mtcars$am), sd) 
am mpg hp wt 

1 0 383 53.%9. OT 

1% 84.1 0.617 

注意 1ist (am=mtcarssam) 的 使 用 。 如 果 使 用 的 是 1ist (mtcarssam) , 则 am 列 将 被 标注 为 
Group .1 而 不 是 am。 你 使 用 这 个 赋值 指定 了 一 个 更 有 帮助 的 列 标签 。 如 果 有 多 个 分 组 变 量 ， 可 以 
使 用 by=list (namel=groupvarl, name2=groupvar2, ... ,， nameN=groupvarN) 这 样 的 
语句 。 

遗憾 的 是 ，aggregate() 仅 允许 在 每 次 调用 中 使 用 平均 数 、 标 准 差 这 样 的 单 返 回 值 函 数 。 
它 无 法 一 次 返回 若干 个 统计 量 。 要 完成 这 项 任务 ， 可 以 使 用 by () 函数 。 格 式 为 : 


by (data, INDICES, FUN) 


其 中 aata 是 一 个 数据 框 或 矩阵 ，INDTICEs 是 一 个 因子 或 因子 组 成 的 列表 ,定义 了 分 组 ，FON 是 任 
意 函 数 。 代 码 清单 7-7 提 供 了 一 个 示例 。 


代码 清单 7-7 使 用 by () 分 组 计算 描述 性 统计 量 
> dstats <- function(x)sapply (x, mystats) 
> myvars <- c("mpg", "hp", "wt") 
> by(mtcars[myvars], mtcarss$sam, dstats) 
mtcars$am: 0 





























mpg nD wt 
n 19.000 19.0000 19.000 
mean 和 上 上 60 2532 3:.769 
stdev 3.834 53.9082 0.777 
skew 0.014 -0.0142 QQNG6 
kurtosis =0.803 = 二 2097 0.142 
mtcars$am: 1 

mpg hp wt 
n 13.0000 13.000 13.000 
mean 24.3923 12:6..846 2 村 二 
stdev GL665 84.062 Qi GL 
skew QQ52.6 1.360 03240 
kurtosis 4554 0.563 a eg pd 


这 里 ，dstats () 调 用 了 代码 清单 7-2 中 的 mystats () 函数 ， 将 其 应 用 于 数据 框 的 每 一 栏 中 。 
再 通过 py () 函数 则 可 得 到 am 中 每 一 水 平 的 概括 统计 量 。 
7.1.4 “分 组 计算 的 扩展 


doBy 包 和 psych 包 也 提供 了 分 组 计算 描述 性 统计 量 的 函数 ,同样 地 ,它们 未 随 基本 安装 发 布 ， 
必须 在 首次 使 用 前 进行 安装 。gdoBy 包 中 summaryBy () 函数 的 使 用 格式 为 : 


summaryBy (formula, data=dataframe, FUN=function) 
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其 中 的 formula 接 受 以 下 的 格式 : 

Var + var2 + Var3 + ... + VarN ~ groupvarl + groupvar2 + ... + groupvarN 
在 ~ 左 侧 的 变量 是 需要 分 析 的 数值 型 变量 ， 而 右 侧 的 变量 是 类 别 型 的 分 组 变量 。function 可 为 
任何 内 建 或 用 户 自 编 的 R 函 数 。 使 用 7.2.1 节 中 创建 的 mystats () 函数 的 一 个 示例 如 代码 清单 7-8 
所 示 。 


代码 清单 7-8 ”使 用 doBy 包 中 的 summaryBy () 分 组 计算 概述 统计 量 
> library (doBy) 
> summaryBy (mpg+hp+wt~am, data=mtcars, FUN=mystats) 
am mpg.n mpg.mean mpg.stdev mpg.skew mpg.kurtosis hp.n hp.mean hp.stdev 























0 1.9. yA 3.83 0.0140 -0.803 19 160 53.79 

2 13 2.4..4 6.17 0.0526 -1.455 8 123 84.1 
hp.skew hp.kurtosis wt.n wt.mean wt.stdev wt .skew wt.kurtosis 

LT .00142 .0 19 S307 0.777 0.976 0.142 

2 E3599 0.563 13 2 了 0.617 0.210 -1.174 




















psych 包 中 的 describeBy () 函数 可 计算 和 qdaescribe() 相 同 的 描述 性 统计 量 ， 只 是 按照 一 
个 或 多 个 分 组 变量 分 层 ， 如 代码 清单 7-9 所 示 。 


代码 清单 7-9 使 用 psych 包 中 的 aescribeBy () 分 组 计算 概述 统计 量 


> library (psych) 


> TyVvars mg hp "wt") 
> describeBy (mtcars[myvars], list(am=mtcarss$am)) 
am: 0 
var n mean sd median trimmed mad min max 
mpg 1 19 ls 3.83 业 人 3 的 2 S11 T0440 24.40 
hp 2 19 160.26 53:.:94 175.00 161.06 ITILO: “6200 2.45 00 
wt 3 19 3.77 0.78 3;,52 3:,75 0.45 2.46 5.42 
range skew kurtosis se 
mpg 14.00 0,:01 -0.80 0.88 
hp 183.00 -0.01 A T2327 
wt 2.96 0.98 0.14 0.18 
am: 1 
Var n mean sd median trimmed mad min max 
mpg 13 24.39 6.17 22.80 24.38 6.67 15.00 3.3:59:0 
hp 多 13 126.85 84.06 109.00 于 4..73 65375 1 与 2500 383500 
wt 3 13: 2.41 0.62 | 2539 0.68 1 和 3 
range skew kurtosis se 
mpg 18.90 0.05 -1.46 1 二 
hp 283.00 T5346 Dns6 235 3 和 
wt 2.06 0.21 = 7 Osa 
与 前 面 的 示例 不 同 ，describeBy () 函数 不 允许 指定 任意 函数 ， 所 以 它 的 普 适 性 较 低 。 若 存 
在 一 个 以 上 的 分 组 变量 ， 你 可 以 使 用 1ist (namel=groupvar1, name2=groupvar2, ... ， 








DameN=g9roupvarN) 来 表示 它们 。 但 这 仅 在 分 组 变量 交叉 后 不 出 现 空白 单元 时 有 效 。 
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数据 分 析 人 员 对 于 展示 哪些 描述 性 统计 量 以 及 结果 采用 什么 格式 都 有 着 自己 的 偏好 , 这 也 许 
就 是 有 如 此 多 不 同方 法 的 原因 。 你 可 以 选择 最 适合 的 方式 ， 或 是 创造 属于 自己 的 方法 ! 


7.1.5 结果 的 可 视 化 


分 布 特征 的 数值 刻画 的 确 很 重要 , 但 是 这 并 不 能 代替 视觉 呈现 。 对 于 定量 变量 , 我 们 有 直方 
( 6.3 节 )、 密 度 图 (6.4 节 )、 箱 线 图 (6.5 节 ) 和 点 图 (6.6 节 )。 它 们 都 可 以 让 我 们 洞悉 那些 依 
赖 于 观察 一 小 部 分 描述 性 统计 量 时 忽略 的 细节 。 

目前 我 们 考虑 的 函数 都 是 为 定量 变量 提供 概述 的 。 下 一 节 中 的 函数 则 允许 考察 类 别 型 变量 的 
分 布 。 


7.2 ”频数 表 和 列 联 表 


在 本 节 中 , 我 们 将 着 眼 于 类 别 型 变量 的 频数 表 和 列 联 表 ,， 以 及 相应 的 独立 性 检验 、 相 关 性 的 
度量 图形 化 展示 结果 的 方法 。 我 们 除了 使 用 基础 安装 中 的 函数 , 还 将 连带 使 用 vcd 包 和 gmodels 
包 中 的 函数 。 下 面 的 示例 中 ,假设 A、B 和 C 代 表 类 别 型 变量 。 

本 节 中 的 数据 来 自 vcd 包 中 的 Arthritis 数 据 集 。 这 份 数据 来 自 Kock &&Edward ( 1988 ), 表 
示 了 一 项 风湿 性 关节 炎 新 疗法 的 双 盲 临床 实验 的 结果 。 前 几 个 观测 是 这 样 的 : 


> library (vcd) 
> head (Arthritis) 
















































































ID Treatment Sex Age Improved 
1 SY Treated Male 2 Some 
2 46 Treated Male 29 None 
3 et Treated Male 30 None 
4 17 Treated Male 32 Marked 
5 36 Treated Male 46 Marked 
6 23 Treated Male 58 Marked 











治疗 情况 (安慰 剂 治疗 、 用 药 治 疗 )、 性 别 ( 男性、 女性 ) 和 改善 情况 (无 改善 、 一 定 程 度 
的 改善 、 显 著 改善 ) 均 为 类 别 型 因子 ?。 下 一 节 中 ， 我 们 将 使 用 此 数据 创建 频数 表 和 列 联 表 ( 交 
又 的 分 类 )。 
7.2.1 生成 频数 表 
R 中 提供 了 用 于 创建 频数 表 和 列 联 表 的 若干 种 方法 。 其 中 最 重要 的 函数 已 列 于 表 7-1 中 。 
表 7-1 用 于 创建 和 处 理 列 联 表 的 函数 


函数 描述 
table(var1, var2, ..., varN) 使 用 vy 个 类 别 型 变量 ( 因子 ) 创建 一 个 NW 维 列 联 表 









































@ 分 别 对 应 数据 中 的 变量 Treatment (Placebo、Treated) 、Sex(Male、Female) 和 Improved(None、Some、 
Marked) 。 一 一 译 者 注 
























































( 续 ) 
浮 数 描 ” 述 
xtabs (formula, data) 根据 一 个 公式 和 一 个 和 矩阵 或 数据 框 创建 一 个 N 维 列 联 表 
prop.table(table, margins) 依 margins 定义 的 边际 列表 将 表 中 条 目 表示 为 分 数 形式 
margin.table(table, margins) 依 margins 定义 的 边际 列表 计算 表 中 条 目的 和 
adqdmargins (table, margins) 将 概述 边 margins (默认 是 求 和 结果 ) 放 人 表 中 
ftable (tablie) 创建 一 个 紧凑 的 “ 平 铺 ” 式 列 联 表 











接 下 来 ,我 们 将 逐个 使 用 以 上 函数 来 探索 类 别 型 变量 。 我 们 首先 考察 简单 的 频率 表 , 接 下 来 
是 二 维 列 联 表 , 最 后 是 多 维 列 联 表 。 第 一 步 是 使 用 table () 或 xtabs () 函数 创建 一 个 表 , 然后 使 
用 其 他 函数 处 理 它 。 

1. 一 维 列 联 表 

可 以 使 用 cable () 函数 生成 简单 的 频数 统计 表 。 示 例如 下 : 


> mytable <- with(Arthritis, table(Improved)) 






































> mytable 
Improved 
None Some Marked 
42 14 28 


可 以 用 prop .table() 将 这 些 频 数 转化 为 比例 值 : 


> prop.table (mytable) 
Improved 

None Some Marked 
OSO0 "01467 O333 


或 使 用 prop .table()*100 转 化 为 百分比 : 


> prop.table(mytable)*100 
Improved 
None Some Marked 
50.0 L637 333 


这 里 可 以 看 到 ， 有 50% 的 研究 参与 者 获得 了 一 定 程度 或 者 显著 的 改善 ( 16.7+33.3 )。 

2. 二 维 列 联 表 

对 于 二 维 列 联 表 ，table () 函数 的 使 用 格式 为 : 

mytable <- table(A, B) 
其 中 的 2 是 行 变量 ，B 是 列 变量 。 除 此 之 外 ，xtabs () 函数 还 可 使 用 公式 风格 的 输入 创建 列 联 表 ， 
格式 为 : 

mytable <- xtabs(~ A + B, data=mydata) 
其 中 的 mydata 是 一 个 矩阵 或 数据 框 。 总 的 来 说 , 要 进行 交叉 分 类 的 变量 应 出 现在 公式 的 右 侧 ( 即 
~ 符号 的 右 方 )， 以 + 作为 分 隔 符 。 若 某 个 变量 写 在 公式 的 左 侧 ， 则 其 为 一 个 频数 向 量 ( 在 数据 已 
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经 被 表格 化 时 很 有 用 )。 
对 于 Arthritis 数 据 ， 有 : 


> mytable <- xtabs(~ Treatment+Improved, data=Arthritis) 


> mytable 
Improved 
Treatment None Some Marked 
Placebo 29 7 7 
Treated 3 3 之 让 


你 可 以 使 用 margin.table() 和 prop.table() 也 数 分 别 生 成 边际 频数 和 比例 。 行 和 与 行 比 
例 可 以 这 样 计算 : 


> margin.table(mytable, 1) 
Treatment 
Placebo Treated 
3 41 
> prop.table(mytable, 1) 
Improved 
Treatment None Some Marked 
Placebo 0.674 0.163 0.163 
Treated 0.317 0.171 Qs5T2 


下 标 1 指 代 table () 语 句 中 的 第 一 个 变量 。 观 察 表格 可 以 发 现 ， 与 接受 安慰 剂 的 个 体 中 有 显 
著 改 善 的 16% 相 比 ， 接 受 治疗 的 个 体 中 的 51% 的 个 体 病 情 有 了 显著 的 改善 
列 和 与 列 比 例 可 以 这 样 计 算 : 


> margin.table(mytable, 2) 7 
Improved 


None Some Marked 














42 14 28 
> prop.table(mytable, 2) 
Improved 
Treatment None Some Marked 


Placebo 0.690 0.500 05250 
Treated 0.310 0.500 0.750 


这 里 的 下 标 2 指 代 table () 语 句 中 的 第 二 个 变量 。 
各 单元 格 所 占 比例 可 用 如 下 语句 获取 : 


> prop.table (mytable) 
Improved 
Treatment None Some Marked 
Placebo 0.3452 0.0833 0.0833 
Treated 0.1548 0.0833 0.2500 


你 可 以 使 用 aqdmargins () 函数 为 这 些 表格 添加 边际 和 。 例 如 ， 以 下 代码 添加 了 各 行 的 和 与 
各 列 的 和 : 
> addmargins (mytable) 


Improved 
Treatment None Some Marked Sum 
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Placebo 29, 7 7 43 
Treated 13 7 2 41 
Sum 42 14 28 84 

> addmargins (prop.table (mytable)) 

Improved 

Treatment None Some Marked Sum 
Placebo 0.3452 0.0833 0.0833 0.5119 
Treated 0.1548 0.0833 0.2500 0.4881 
Sum 0.5000 0.1667 0.3333 1.0000 

在 使 用 adgmargins () 时， 默认 行为 是 为 表 中 所 有 的 变量 创建 边际 和 。 作 为 对 照 : 

> addmargins (prop.table(mytable, 1), 2) 

Improved 

Treatment None Some Marked Sum 
Placebo 0.674 0.163 0.163 1.000 
Treated 0.317 Qs dy OQ. asl2 i1000 

仅 添 加 了 各 行 的 和 。 类 似 地 ， 
> addmargins (prop.table(mytable, 2), 1) 
Improved 

Treatment None Some Marked 
Placebo 0.690 0 5.00 0%2.50 
Treated 0.310 0.500 0.750 
Sum 1.000 1.000 1.000 





添加 了 各 列 的 和 。 在 表 中 可 以 看 到 ， 有 显著 改善 患者 中 的 25% 是 接受 安 





， "ifany", 


注意 
/ 工 忆 








使 用 gmodels 包 中 的 crossTable () 函数 是 创建 二 维 列 联 表 的 第 三 
函数 仿照 SAS 中 PROC FREQ 或 SPSS 中 cROSSTABS 的 形式 生成 二 

7-10。 

代码 清单 7-10 ”使 用 crossTable 生 成 二 维 列 联 表 


> library (gmodels) 
> CrossTable(Arthritis$Treatment, 





ArthritissImproved) 


Cell Contents 


马 


N / Col Total 


| 
| Chi-square contribution 
| 
| 
| N / Table Total 


| 
| 
N / Row Total | 
| 
| 


Total Observations in Table: 84 


奈 剂 ; 


台 疗 的 。 


A )。 要 在 频数 统计 中 将 NA 视 为 一 个 有 效 的 类 别 , 请 设 定 


种 方法 。CrossTable () 


维 列 联 表 。 示 例 参 阅 代 码 清 单 
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Arthritiss$Improved 

Arthritis$sTreatment None Some Marked Row Total 
Placebo 29 4 区 43 

2361T6 0.004 33752 
0.674 0.163 0.163 二 有 

0.690 0.500 Qe:25.0 

0.345 0.083 0.083 
Treated 13 7 2 本 41 

2.744 0.004 35935 
0.317 0.171 Qi DE2 0.488 

0.310 0.500 0.750 

QS 0.083 0.250 
Column Total 42 14 28 84 

0.500 QE67 02333 

CrossTable() 图 数 有 很 多 选项 ， 可 以 做 许多 事情 : 计算 ( 行 、 列 、 单 元 格 ) 的 百分比 ; 指 





定 小 数位 数 ; 进行 卡 方 、Fisher 和 McNemar 独 立 性 检验 ; 计算 期 望 和 (皮尔 逊 、 标 准 化 、 调 整 的 
标准 化 ) 残 差 ; 将 缺失 值 作为 一 种 有 效 值 ; 进行 行 和 列 标题 的 标注 ; 生成 SAS 或 SPSS 风 格 的 输出 。 
人 参阅 help(crossTable) 以 了 解 详情 。 

如 果 有 两 个 以 上 的 类 别 型 变量 ,那么 你 就 是 在 处 理 多 维 列 联 表 。 我 们 将 在 下 面 考虑 这 种 情况 。 

3. 多 维 列 联 表 

table() 和 xtabs() 都 可 以 基于 三 个 或 更 多 的 类 别 型 变量 生成 多 维 列 联 表 。 
margin.table()、prop.table() 和 adqmargins() 隐 数 可 以 自然 地 推广 到 高 于 二 维 的 情况 。 
男 外 ，ftable() 函数 可 以 以 一 种 紧凑 而 吸引 人 的 方式 输出 多 维 列 联 表 。 代 码 清 单 7-11 中 给 出 了 
一 个 示例 。 


代码 清单 7-11 三 维 列 联 表 


> mytable <- xtabs(~ Treatment+Sex+Improved, data=Arthritis) 
> mytable 6 各 单元 格 的 频数 
， Improved = None 



































Sex 
Treatment Female Male 
Placebo 9 10 
Treated 6 yh 


， Improved = Some 


Sex 
Treatment Female Male 
Placebo 7 0 
Treated 总 2 


,， ， Improved = Marked 


142 第 7 章 基本 统计 分 析 





Sex 
Treatment Female Male 
Placebo 6 业 
Treated 16 5 


> ftable (mytable) 
Sex Female Male 
Treatment Improved 


Placebo None 19 10 
Some 7 0 
Marked 6 业 
Treated None 6 7 
Some 5 之 
Marked 16 5 
9 边际 频数 
> margin.table (mytable, 1) 
Treatment 
Placebo Treated 
43 41 
> margin.table(mytable, 2) 
Sex 
Female Male 
59 2:5 
> margin.table(mytable, 3) 
Improved 
None Some Marked 治疗 情况 (Treatment ) x 改善 
< 情况 Improved) 的 边际 频数 
> margin.table(mytable, c(1, 3)) 
Improved 


Treatment None Some Marked 


US 2 (sex) 的 各 类 改善 情况 比例 
> ftable(prop.table(mytable, c(1, 2))) 


Improved None Some Marked 


Placebo 29 7 _9 治疗 情况 (Treatment) x 性 别 


Treatment Sex 


Placebo Female 0.594 0.219 0.188 
Male 0.909 0.000 0.091 
Treated Female Qi222. OL83 ‘0%593 
Male 0 500 0:143 72203357 
> ftable(addmargins (prop.table(mytable, c(1, 2)), 3)) 


Improved None Some Marked Sum 
Treatment Sex 


Placebo Female 0.594 0.219 0.188 1.000 
Male 0..909 0::000. “0..091 1.:000 
Treated Female 0222" .0,185™ 0%593 Ti:000 
Male 0.500 0.143 0.357 1.000 


第 @ 部 分 代码 生成 了 三 维 分 组 各 单元 格 的 频数 。 这 段 代码 同时 演示 了 如 何 使 用 ftapble () 函 
数 输出 更 为 紧凑 和 吸引 人 的 表格 。 

第 @ 部 分 代码 为 治疗 情况 (Treatment )、 性 别 (sex ) 和 改善 情况 ( Improved ) 生成 了 边 
际 频数 。 由 于 使 用 公式 ~Treatement+Sex+Improve 创 建 了 这 个 表 ， 所 以 Treatment 需 要 通过 
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下 标 1 来 引用 ，Sex 通 过 下 标 2 来 引用 ，Improve 通 过 下 标 3 来 引用 。 
第 全 部 分 代码 为 治疗 情况 (Treatment ) x 改善 情况 ( Improved ) 分 组 的 边际 频数 ， 由 不 
同性 别 ( sex ) 的 单元 加 和 而 成 。 每 个 rreatmentxSex 组 合 中 改善 情况 为 None、Some 和 Marked 
患者 的 比例 由 @ 给 出 。 在 这 里 可 以 看 到 治疗 组 的 男性 中 有 36% 有 了 显著 改善 ， 女 性 为 539%。 总 而 
言 之 ， 比 例 将 被 添加 到 不 在 prop.table() 调用 中 的 下 标 上 (本 例 中 是 第 三 个 下 标 ， 或 称 
Improve )。 在 最 后 一 个 例子 中 可 以 看 到 这 一 点 ， 你 在 那里 为 第 三 个 下 标 添加 了 边际 和 。 

如 果 想 得 到 百分比 而 不 是 比例 ， 可 以 将 结果 表格 乘 以 100。 例 如 : 


ftable(addmargins (prop.table(mytable, c(1, 2)), 3)) * 100 


将 生成 下 表 : 



































Sex Female Male Sum 
Treatment Improved 


Placebo None G35 3455 10050 
Some 100.0 0.0 100.0 
Marked Bo 下 上 00 
Treated None 46.2 53.8 100.0 
Some wd 86 L000 
Marked 76.2 23.8 100.0 


列 联 表 可 以 告诉 你 组 成 表格 的 各 种 变量 组 合 的 频数 或 比例 , 不 过 你 可 能 还 会 对 列 联 表 中 的 变 
量 是 否 相 关 或 独立 感 兴趣 。 下 一 节 我 们 会 讲解 独立 性 的 检验 。 


7.2.2 ”独立 性 检验 


R 提 供 了 多 种 检验 类 别 型 变量 独立 性 的 方法 ,本 节 中 描述 的 三 种 检验 分 别 为 卡 方 独 立 性 检验 、 
Fisher 精 确 检 验 和 Cochran-Mantel-Haenszel 检 验 。 

1. 卡 方 独立 性 检验 

你 可 以 使 用 chisa.test () 函数 对 二 维 表 的 行 变量 和 列 变量 进行 卡 方 独立 性 检验 。 示 例 参 见 
代码 清单 7-12。 


代码 清单 7-12 ” 卡 方 独立 性 检验 
> library (vcd) 
> mytable <- xtabs (~Treatment+Improved, data=Arthritis) 
> chisq.test (mytable) 
Pearson’s Chi-squared test 治疗 情况 和 改善 
data: mytable 情况 不 独立 
X-squared = 13.1, df = 2, p-value = 0.001463 


















































> mytable <- xtabs (~Improved+Sex, data=Arthritis) 
> chisq.test (mytable) 


Pearson's Chi-squared test 性 别 和 改善 
data: mytable 情况 独立 


X-squared = 4.84, df = 2, p-value = 0.0889 


Warning message: 
In chisq.test (mytable) : Chi-squared approximation may be incorrect 
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在 结果 @Q 中 ， 患 者 接受 的 治疗 和 改善 的 水 平 看 上 去 存在 着 某 种 关系 (p<0.01 )。 而 患者 性 别 
和 改善 情况 之 间 却 不 存在 关系 (p>0.05 ) 介 。 这 里 的 p 值 表示 从 总 体 中 抽取 的 样本 行 变量 与 列 变 
量 是 相互 独立 的 概率 。 由 于 @ 的 概率 值 很 小 , 所 以 你 拒绝 了 治疗 类 型 和 治疗 结果 相互 独立 的 原 假 
设 , 由 于 @ 的 概率 不 够 小 , 故 没有 足够 的 理由 说 明治 疗 结果 和 性 别 之 间 是 不 独立 的 。 代 码 清单 7-12 
中 产生 警告 信息 的 原因 是 , 表 中 的 6 个 单元 格 之 一 ( 男性 - 一 定 程度 上 的 改善 ) 有 一 个 小 于 5 的 值 ， 
这 可 能 会 使 卡 方 近似 无 效 。 

2. Fisher 精 确 检 验 

可 以 使 用 fisher .test () 函数 进行 Fisher 精 确 检验 。Fisher 精 确 检 验 的 原 假设 是 : 边界 固定 
的 列 联 表 中 行 和 列 是 相互 独立 的 。 其 调用 格式 为 fisher .test (mytable) ， 其 中 的 mytable 是 
一 个 二 维 列 联 表 。 示 例如 下 : 

> mytable <- xtabs (~Treatment+Improved, data=Arthritis) 

> fisher.test (mytable) 

Fisher's Exact Test for Count Data 
data: mytable 


p-value = 0.001393 
alternative hypothesis: two.sided 


与 许多 统计 软件 不 同 的 是 , 这 里 的 fisher .test () 函数 可 以 在 任意 行列 数 大 于 等 于 2 的 二 维 
列 联 表 上 使 用 ， 但 不 能 用 于 2x2 的 列 联 表 。 

3. Cochran-Mantel-Haenszel 检 验 

mantelhaen.test () 子 数 可 用 来 进行 Cochran-Mantel-Haenszel 卡 方 检验 , 其 原 假设 是 , 两 个 
名 义 变 量 在 第 三 个 变量 的 每 一 层 中 都 是 条 件 独立 的 。 下 列 代码 可 以 检验 治疗 情况 和 改善 情况 在 性 
别 的 每 一 水 平 下 是 否 独立 。 此 检验 假设 不 存在 三 阶 交互 作用 【〈 治疗 情况 x 改善 情况 x 性 别 )。 

> mytable <- xtabs (~Treatment+Improved+Sex, data=Arthritis) 

> mantelhaen.test (mytable) 

Cochran-Mantel-Haenszel test 


data: mytable 
Cochran-Mantel-Haenszel M^2 = 14.6, df = 2, p-value = 0.0006647 


结果 表明 ,患者 接受 的 治疗 与 得 到 的 改善 在 性 别 的 每 一 水 平 下 并 不 独立 ( 分 性 别 来 看 , 用药 
治疗 的 患者 较 接受 安慰 剂 的 患者 有 了 更 多 的 改善 )。 


7.2.3 ”相关 性 的 度量 


上 一 节 中 的 显著 性 检验 评估 了 是 否 存在 充分 的 证 据 以 拒绝 变量 间 相 互 独立 的 原 假设 。 如 果 可 
以 拒绝 原 假设 ,那么 你 的 兴趣 就 会 自然 而 然 地 转向 用 以 衡量 相关 性 强 弱 的 相关 性 度量 。vcd 包 中 
的 assocstats () 函数 可 以 用 来 计算 二 维 列 联 表 的 phi 系 数 、 列 联系 数 和 Cramer’s V 系 数 。 代 码 清 
单 7-13 给 出 了 一 个 示例 。 


代码 清单 7-13 ”二 维 列 联 表 的 相关 性 度量 
> library (vcd) 
> mytable <- xtabs (~Treatment+Improved, data=Arthritis) 
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> assocstats (mytable) 
XxX^2 df P(> X^2) 
Likelihood Ratio 13.530 2 0.0011536 


Pearson L3055Y 2°*0.:0014626 
Phi-Coefficient : 0.394 
Contingency Coeff.: 0.367 
Cramer's V :0..394 





总 体 来 说 ， 较 大 的 值 意味 着 较 强 的 相关 性 。vcq 包 也 提供 了 一 个 kappa () 函数 ， 可 以 计算 混 
消 矩 阵 的 Cohen's kappa 值 以 及 加 权 的 kappa 值 。( 举例 来 说 ， 混 消 和 矩阵 可 以 表示 两 位 评判 者 对 于 
一 系列 对 象 进行 分 类 所 得 结果 的 一 致 程度 。) 


7.2.4 结果 的 可 视 化 


R 中 拥有 远 远 超出 其 他 多 数 统计 软件 的 、 可 视 地 探索 类 别 型 变量 间 关 系 的 方法 。 通 常 ， 我 们 
会 使 用 条 形 图 进行 一 维 频数 的 可 视 化 (参见 6.1 节 )。vcd 包 中 拥有 优秀 的 、 用 于 可 视 化 多 维 数 据 
集中 类 别 型 变量 间 关 系 的 函数 ， 可 以 绘制 马赛 克 图 和 关联 图 (参见 11.4 节 )。 最 后 ，ca 包 中 的 对 
应 分 析 函 数 允 许 使 用 多 种 几何 表示 (Nenadic & Greenacre，2007 ) 可 视 地 探索 列 联 表 中 行 和 列 之 
间 的 关系 。 

对 列 联 表 的 讨论 暂时 到 此 为 止 , 我 们 将 在 第 11 章 和 第 15 章 中 探讨 更 多 高 级 话题 。 下 面 ， 我 们 
将 开始 关注 各 种 类 型 的 相关 系数 。 


7.3 ”相关 


相关 系数 可 以 用 来 描述 定量 变量 之 间 的 关系 。 相 关系 数 的 符号 ( 土 ) 表明 关系 的 方向 〈 正 相 
关 或 负 相关 )， 其 值 的 大 小 表示 关系 的 强 弱 程度 ( 完全 不 相关 时 为 0， 完 全 相关 时 为 1 )。 

本 节 中 ， 我 们 将 关注 多 种 相关 系数 和 相关 性 的 显著 性 检验 。 我 们 将 使 用 R 基 础 安装 中 的 
state.x77 数 据 集 , 它 提供 了 美国 50 个 州 在 1977 年 的 人 口 、 收 入 、 文 盲 率 、 预 期 寿命 、 谋 杀 率 和 
高 中 毕业 率 数 据 。 数 据 集中 还 收录 了 气温 和 土地 面积 数据 , 但 为 了 节约 空间 ， 这 里 将 其 丢弃 。 你 
可 以 使 用 help (state.x77) 了 解数 据 集 的 更 多 信息 。 除 了 基础 安装 以 外 ， 我 们 还 将 使 用 psych 
和 ggm 包 。 


7.3.1 相关 的 类 型 


R 可 以 计算 多 种 相关 系数 ,包括 Pearson 相 关系 数 、Spearman 相 关系 数 、Kendall 相 关系 数 、 偏 
相关 系数 、 多 分 格 (polychoric ) 相关 系数 和 多 系列 (polyserial ) 相关 系数 。 下 面 让 我 们 依次 理 
解 这 些 相 关系 数 。 

1. Pearson、Spearman 和 Kendall 相 关 

Pearson 积 差 相关 系数 衡量 了 两 个 定量 变量 之 间 的 线性 相关 程度 ,Spearman 等 级 相关 系数 则 衡 
量 分 级 定 序 变量 之 间 的 相关 程度 。Kendall’s Tau 相 关系 数 也 是 一 种 非 参 数 的 等 级 相关 度量 。 
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cor () 函数 可 以 计算 这 三 种 相关 系数 ， 而 cov () 函数 可 用 来 计算 协 方差 。 两 个 函数 的 参数 有 
很 多 ， 其 中 与 相关 系数 的 计算 有 关 的 参数 可 以 简化 为 : 


cor(x, use= , method= ) 


这 些 参 数 详 述 于 表 7-2 中 。 
表 7-2 ”cor 和 cov 的 参数 











参数 描述 
x 和 矩阵 或 数据 框 
ge 间 定 缺失 数据 的 处 理 方式 。 可 选 的 方式 为 a11 .obs( 假设 不 存在 缺失 数据 一 一 遇 到 缺失 数据 时 将 报 





错 )、everything (直到 缺失 数据 时 , 相关 系数 的 计算 结果 将 被 设 为 missing )、complete.obs ( 行 
删除 ) 以 及 pairwise.complete.obs (成 对 删除 ，pairwise deletion ) 


method 指定 相关 系数 的 类 型 。 可 选 类 型 为 pearson、spearman 或 kendall 
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示例 。 
代码 清单 7-14 ” 协 方 差 和 相关 系数 


> states<- state.x77[,1:6] 
> cov(states) 

Population Income Illiteracy Life Exp Murder HS Grad 
Population 19931684 571230 292..868 407 .842 5663.052. 3551.51 


Income B12.30. 3 /973 -163.702 280.663 -521.89 3076.77 
Illiteracy 2.93 -164 Qi372 -0.482 1.:58 3524 
Life Exp -408 281 -0.482 L802 3.,87 6.31 
Murder 5664 =522 T9822 -3869 13.63 = 
HS Grad -3392 3077 23.5 G3l3n Sd 65.24 


> Cor (StatesS) 
Population Income Illiteracy Life Exp Murder HS Grad 


Population 1.0000 0.208 0.108 -0.068 0.344 -0.0985 
Income 0.2082 1.000 -0.437 0 340 = 023.0, “O06L99. 
Illiteracy 0:1076 -0.437 1.000 -0.588. 0.7103 =0.6572 
Life Exp -0.0681 0.340 -0.588 1T.000 一 0.78 :0,5822 
Murder 0.3436 -0.230 0.703 -0.781 1.000 -0.4880 
HS Grad -0.0985 0.620 -0.657 0.582 -0.488 1.0000 


> cor(states, method="spearman") 
Population Income Illiteracy Life Exp Murder HS Grad 





Population L000 OB25 O33 S00 L004 0346 0383 
Income 0.125 -1.000 =05315 0.324 -=0.217 0.510 
Illiteracy Qi313: 0.,.315 1.000 0555 Ox GI F005 
Life Exp -0.104 0.324 sO0s555 1.000 -0.780 0.524 
Murder 0::346°=0;217 0.672 -0.780 1.000 -0.437 
HS Grad -0.383 0.510 O0655 0.524 -0.437 1.000 





首 个 语句 计算 了 方差 和 协 方差 , 第 二 个 语句 则 计算 了 Pearson 积 差 相关 系数 , 而 第 三 个 语句 计 
算 了 Spearman 等 级 相关 系数 。 举 例 来 说 , 我 们 可 以 看 到 收入 和 高 中 毕业 率 之 间 存 在 很 强 的 正 相 关 ， 
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而 文盲 率 和 预期 寿命 之 间 存 在 很 强 的 负 相 关 。 
请 注意 ， 在 默认 情况 下 得 到 的 结果 是 一 个 方 阵 ( 所 有 变量 之 间 两 两 计算 相关 )。 你 同样 可 以 
计算 非 方 形 的 相关 矩阵。 观察 以 下 示例 : 


> x <- states[,c("Population", "Income", "Illiteracy", "HS Grad")] 
>Yy <- states[,c("Life Exp", "Murder")] 
», COr (XY} 
Life Exp Murder 
Population -0.068 0.344 











Income 0.340 -0.230 
Illiteracy -0.588 0.703 
HS Grad 0882.7 -0.5488 

















当 你 对 菜 一 组 变量 与 另外 一 组 变量 之 间 的 关系 感 兴趣 时 ，cor () 函数 的 这 种 用 法 是 非常 实用 
的 。 注 意 ， 上 述 结果 并 未 指明 相关 系数 是 否 显著 不 为 0( 即 ， 根 据 样本 数据 是 否 有 足够 的 证 据 得 
出 总 体 相关 系数 不 为 0 的 结论 )。 由 于 这 个 原因 ， 你 需要 对 相关 系数 进行 显著 性 检验 ( 在 7.3.2 节 中 
阐述 )。 

2. 偏 相 关 

偏 相 关 是 指 在 控制 一 个 或 多 个 定量 变量 时 , 另外 两 个 定量 变量 之 间 的 相互 关系 。 你 可 以 使 用 
ggm 包 中 的 pcor () 函数 计算 偏 相关 系数 。ggm 包 没有 被 默认 安装 ,在 第 一 次 使 用 之 前 需要 先进 行 
安装 。 郴 数 调用 格式 为 : 

pcor(u, 5S) 
其 中 的 u 是 一 个 数值 向 量 ， 前 两 个 数值 表示 要 计算 相关 系数 的 变量 下 标 ， 其 余 的 数值 为 条 件 变 量 
( 即 要 排除 影响 的 变量 ) 的 下 标 。 5 为 变量 的 协 方差 阵 。 这 个 示例 有 助 于 阐明 用 法 : 

> library (ggm) 

> colnames (states) 

[1] "Population" "Income" "Illiteracy" "Life Exp" "Murder" "HS Grad" 


3 Deor(e(lyo2 36); COV(Statesy)) 
[T0346 


本 例 中 ， 在 控制 了 收入 、 文 盲 率 和 高 中 毕业 率 的 影响 时 ， 人 口 和 谋杀 率 之 间 的 相关 系数 为 
0.346。 偏 相关 系数 常用 于 社会 科学 的 研究 中 。 

3. 其 他 类 型 的 相关 

polycor 包 中 的 netcor() 函数 可 以 计算 一 种 混合 的 相关 矩阵， 其 中 包括 数值 型 变量 的 
Pearson 积 差 相 关系 数 、 数 值 型 变量 和 有 序 变量 之 间 的 多 系列 相关 系数 、 有 序 变量 之 间 的 多 分 格 相 
关系 数 以 及 二 分 变量 之 间 的 四 分 相关 系数 。 多 系列 、 多 分 格 和 四 分 相关 系数 都 假设 有 序 变 量 或 二 
分 变量 由 潜在 的 正 态 分 布 导 出 。 请 参考 此 程序 包 所 附 文档 以 了 解 更 多 。 


7.3.2 ”相关 性 的 显著 性 检验 


在 计算 好 相关 系数 以 后 , 如 何 对 它们 进行 统计 显著 性 检验 呢 ? 常用 的 原 假设 为 变量 间 不 相关 
( 即 总 体 的 相关 系数 为 0 )。 你 可 以 使 用 cor .test () 函数 对 单个 的 Pearson 、Spearman 和 Kendall 相 







































































148 第 7 章 基本 统计 分 析 





关系 数 进行 检验 。 简 化 后 的 使 用 格式 为 : 

Cor .test (x, y, alternative = , method = ) 
其 中 的 x 和 y 为 要 检验 相关 性 的 变量 ，alternative 则 用 来 指定 进行 双 侧 检验 或 单 侧 检 验 ( 取 值 
为 "two.side"、 "ess" 或 "greatern" » 而 method 用 以 指定 要 计算 的 相关 类 型 ( "pearson"、 
"kendall" 或 "spearman" )。 当 研究 的 假设 为 总 体 的 相关 系数 小 于 0 时 ， 请 使 用 
alternative="less" 。 在 研究 的 假设 为 总 体 的 相关 系数 大 于 0 时 ， 应 使 用 
alternative="greater"o 在 默认 情况 下 ， 假 设 为 alternative="two.siqe" ( 总体 相 关系 


数 不 等 于 0 )。 参 考 代码 清单 7-15 中 的 示例 。 
代码 清单 7-15 ”检验 某 种 相关 系数 的 显著 性 


> Cor .test (states[,3], states[,5]) 








Pearson's product-moment correlation 


data: states[, 3] and states[, 5] 
t = 6.85, df = 48, p-value = 1.258e-08 
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval: 
0.528 0.821 
sample estimates: 
cor 
0.703 


这 段 代码 检验 了 预期 寿命 和 谋杀 率 的 Pearson 相 关系 数 为 0 的 原 假 设 。 假 设 总 体 的 相关 度 为 0， 
则 预计 在 一 千 万 次 中 只 会 有 少 于 一 次 的 机 会 见 到 0.703 这 样 大 的 样本 相关 度 ( 即 p=1.258e-08 )。 由 
于 这 种 情况 几乎 不 可 能 发 生 ， 所 以 你 可 以 拒绝 原 假设 , 从 而 支持 了 要 研究 的 猜想 ， 即 预期 寿命 和 
谋杀 率 之 间 的 总 体 相 关 度 不 为 0。 

遗憾 的 是 ，cor.test () 每 次 只 能 检验 一 种 相关 关系 。 但 幸运 的 是 ，psych 包 中 提供 的 
corr.test () 图 数 可 以 一 次 做 更 多 事情 。corr.test () 水 数 可 以 为 Pearson、Spearman 或 Kendall 
相关 计算 相关 和 矩阵 和 显著 性 水 平 。 代 码 清单 7-16 中 给 出 了 一 个 示例 。 


代码 清单 7-16 ”通过 corr .test 计 算 相 关 和 矩阵 并 进行 显著 性 检验 


> library (psych) 
> corr.test (states, use="complete") 





















































Call:corr.test(x = states, use = "complete") 
Correlation matrix 
Population Income Illiteracy Life Exp Murder HS Grad 


Population 于 过 DO 0.21 0 直下 =0.507 0.34 S010 
Income Da21 1.00 -0.44 Qa34 =0..523 0:a62 
Illiteracy 0.11 -0.44 1.00 =0..5.9 0.70 -0.66 
Life Exp 二 020V 0.34 = S59 1.00 =0.78 0.58 
Murder 0%34 5 0 23 0.70 “0.378 1.00 “0 9 


HS Grad SOL0 0.62 8066 0%58. 三 0 49 400 
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Sample Size 
El] .0 


Probability value 
Population Income Illiteracy Life Exp Murder HS Grad 


Population 0.00 O35 0.46 0.64 0.01 035 
Income O05 0.00 0.00 0502 0 .11 0.0 
Illiteracy 0.46 0.00 0.00 0.00 0.00 0.0 
Life Exp 0.64 0.02 0.00 0.00 0.00 0.0 
Murder 0.01 0.11 0.00 0.00 0.00 0.0 
HS Grad 0.50 0.00 0.00 0.00 0.00 0.0 


参数 use= 的 取 值 可 为 "pairwise" 或 "complete" (分 别 表 示 对 缺失 值 执行 成 对 删除 或 行 删 
除 )。 参数 method= 的 取 值 可 为 "pearson" (默认 值 )、"spearman" 或 "kendal1"。 这 里 可 以 看 
到 ， 人 口 数 量 和 高 中 毕业 率 的 相关 系数 (-0.10 ) 并 不 显著 地 不 为 0 (p=0.5 )。 
其 他 显著 性 检验 
在 7.4.1 节 中 , 我 们 关注 了 偏 相关 系数 。 在 多 元 正 态 性 的 假设 下 , psych 包 中 的 pcor .test () 
函数 "可 以 用 来 检验 在 控制 一 个 或 多 个 额外 变量 时 两 个 变量 之 间 的 条 件 独 立 性 。 使 用 格式 为 : 
peor.best(r, 0 dy} 
其 中 的 r 是 由 pcor () 函数 计算 得 到 的 偏 相关 系数 ，a 为 要 控制 的 变量 数 〈 以 数值 表示 位 置 )，n 为 
样本 大 小 。 
在 结束 这 个 话题 之 前 应 当 指 出 的 是 ，psych 包 中 的 r .test () 函数 提供 了 多 种 实用 的 显著 性 
检验 方法 。 此 函数 可 用 来 检验 : 
口 某 种 相关 系数 的 显著 性 ; 
D 两 个 独立 相关 系数 的 差异 是 否 显 车 ; 
口 两 个 基于 一 个 共享 变量 得 到 的 非 独 立 相 关系 数 的 差异 是 否 显著 ; 
口 两 个 基于 完全 不 同 的 变量 得 到 的 非 独 立 相关 系数 的 差异 是 否 显 著 。 
参阅 help(r.test) 以 了 解 详 情 。 


7.3.3 ”相关 关系 的 可 视 化 


以 相关 系数 表示 的 二 元 关系 可 以 通过 散 点 图 和 散 点 图 和 矩阵 进行 可 视 化 ， 而 相关 图 
( correlogram ) 则 为 以 一 种 有 意义 的 方式 比较 大 量 的 相关 系数 提供 了 一 种 独特 而 强大 的 方法 。 这 
些 图 形 将 在 第 11 章 中 详 述 。 
















































































7.4 tt 检验 


在 研究 中 最 常见 的 行为 就 是 对 两 个 组 进行 比较 。 接受 某 种 新 药 治疗 的 患者 是 否 较 使 用 某 种 现 
有 药物 的 患者 表现 出 了 更 大 程度 的 改善 ? 某 种 制造 工艺 是 否 较 另 外 一 种 工艺 制造 出 的 不 合格 品 




















Q@ 这 里 可 能 是 作者 的 笔 误 ， 函 数 pcor .test 事 实 上 包含 于 ggm 包 中 。 译 者 注 
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小 











更 少 ? 两 种 教学 方法 中 哪 一 种 更 有 效 ? 如 果 你 的 结果 变量 是 类 别 型 的 ， 那 么 可 以 直接 使 用 7.3 市 
中 阐述 的 方法 。 这 里 我 们 将 关注 结果 变量 为 连续 型 的 组 间 比 较 ， 并 假设 其 呈正 态 分 布 。 

为 了 阐明 方法 ,我 们 将 使 用 MAss 包 中 的 Uscrime 数 据 集 。 它 包含 了 1960 年 美国 47 个 州 的 刑 
罚 制度 对 犯罪 率 影响 的 信息 。 我 们 感 兴趣 的 结果 变量 为 Prop (监禁 的 概率 )、U1 ( 14~24 岁 年 龄 
段 城市 男性 失业 率 ) 和 U2 ( 35~39 岁 年 龄 段 城市 男性 失业 率 )。 类 别 型 变量 so( 指示 该 州 是 否 位 
于 南方 的 指示 变量 ) 将 作为 分 组 变量 使 用 。 数 据 的 尺度 已 被 原始 作者 缩放 过 。( 注意 ,我 原本 打 
算 将 本 节 命 名 为 “ 旧 南 方 的 罪 与 罚 "， 但 是 最 后 理智 还 是 战胜 了 情感 。) 


7.4.1 独立 样本 的 tt 检验 


如 果 你 在 美国 的 南方 犯罪 ,是 否 更 有 可 能 被 判 监禁 ? 我 们 比较 的 对 象 是 南方 和 非 南方 各 州 ， 
因 变 量 为 监禁 的 概率 。 一 个 针对 两 组 的 独立 样本 t 检 验 可 以 用 于 检验 两 个 总 体 的 均值 相等 的 假设 。 
这 里 假设 两 组 数据 是 独立 的 ， 并 且 是 从 正 态 总 体 中 抽 得 。 检 验 的 调用 格式 为 : 

t.test(y ~ x, data) 
其 中 的 y 是 一 个 数值 型 变量 ，x 是 一 个 二 分 变量 。 调 用 格式 或 为 : 

上 .test (yl1, y2) 
其 中 的 y7 和 y2 为 数值 型 向 量 ( 即 各 组 的 结果 变量 )。 可 选 参数 aata 的 取 值 为 一 个 包含 了 这 些 变量 
的 矩阵 或 数据 框 ,与 其 他 多 数 统计 软件 不 同 的 是 , 这 里 的 { 检 验 默 认 假 定 方差 不 相等 , 并 使 用 Welsh 
的 修正 自由 度 。 你 可 以 添加 一 个 参数 var .equal=TRUE 以 假定 方差 相等 ， 并 使 用 合并 方差 估计 。 
默认 的 备 择 假设 是 双 侧 的 〈 即 均值 不 相等 ， 但 大 小 的 方向 不 确定 )。 你 可 以 添加 一 个 参数 
alternative="less" 或 alternative="greater" 来 进行 有 方向 的 检验 。 

在 下 列 代码 中 ， 我 们 使 用 了 一 个 假设 方差 不 等 的 双 侧 检验 ， 比 较 了 南方 (group 1 ) 和 非 南 
方 (group 0 ) 各 州 的 监禁 概率 : 


> library (MASS ) 
> t.test (Prob ~ So, data=UScrime) 
























































































































































Welch Two Sample t-test 


data: Prob by So 
ts -3.8954,. df = 24.925; p-value ss 00006506 
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval: 
-0.03852569 -0.01187439 
sample estimates: 
mean in group 0 mean in group 1 
0.03851265 0.06371269 


你 可 以 拒绝 南方 各 州 和 非 南 方 各 州 拥有 相同 监禁 概率 的 假设 (p<0.001 )。 
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注意 ”由 于 结果 变量 是 一 个 比例 值 ， 你 可 以 在 执行 t 检 验 之 前 尝试 对 其 进行 正 态 化 变换 。 在 本 例 
中 , 所 有 对 结果 变量 合适 的 变换 (Y/1-Y、 log(Y/1-Y)、arcsin(Y)、arcsin(sart (Y) ) 
都 会 将 检验 引 向 相同 的 结论 。 数 据 变换 详 述 于 第 8 章 。 


7.4.2 非 独 立 样本 的 t 检 验 


再 举 个 例子 ， 你 可 能 会 问 : 较 年 轻 ( 14~24 岁 ) 男性 的 失业 率 是 否 比 年 长 (35~39 岁 ) 男性 的 
失业 率 更 高 ? 在 这 种 情况 下 , 这 两 组 数据 并 不 独立 。 你 不 能 说 亚 拉 巴 马 州 的 年 轻 男 性 和 年 长 男性 
的 失业 率 之 间 没 有 关系 。 在 两 组 的 观测 之 间 相 关 时 ， 你 获得 的 是 一 个 非 独 立 组 设计 ( dependent 
groups design )。 前 -后 测 设计 ( pre-post design ) 或 重复 测量 设计 ( repeated measures design ) 同样 
也 会 产生 非 独立 的 组 。 

非 独 立 样本 的 {t 检 验 假定 组 间 的 差异 呈正 态 分 布 。 对 于 本 例 ， 检 验 的 调用 格式 为 : 

t.test (yl1, y2, paired=TRUE) 


其 中 的 yY7 和 y2 为 两 个 非 独立 组 的 数值 向 量 。 结 果 如 下 : 


> library (MASS ) 

> Sapply(UScrime[cl("U1"，"U2")]，function(x) (c(mean=mean(X),，Sdq=sdq(X) ) ) ) 
Ul U2 

mean 95.5 33.98 

sd 18.0 8.45 






































> with(UScrime, t.test (U1l, U2, paired=TRUE)) 
Paired t-test 


data: Ul and U2 
让 三 32.40665 df = 46; p-value < 2.,2e=16 
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval: 
57.67003 65.30870 
sample estimates: 
mean of the differences 
61.48936 


差异 的 均值 (61.5 ) 足够 大 ， 可 以 保证 拒绝 年 长 和 年 轻 男性 的 平均 失业 率 相同 的 假设 。 年 轻 
男性 的 失业 率 更 高 。 事实 上 , 若 总 体 均值 相等 ， 获 取 一 个 差异 如 此 大 的 样本 的 概率 小 于 0.000 000 
000 000 000 22 ( 即 2.2e-16 )。 


7.4.3 ”多 于 两 组 的 情况 


如 果 想 在 多 于 两 个 的 组 之 间 进 行 比较 ， 应 该 怎么 做 ?如果 能 够 假设 数据 是 从 正 态 总 体 中 独 
立 抽 样 而 得 的 ， 那么 你 可 以 使 用 方差 分 析 ( ANOVA )。ANOVA 是 一 套 履 盖 了 许多 实验 设计 和 准 
实验 设计 的 综合 方法 。 就 这 一 点 来 说 ， 它 的 内 容 值 得 单列 一 章 。 你 可 以 随时 离开 本 节 转 而 阅读 











7.5 组 间 差 异 的 非 参数 检验 


如 果 数 据 无 法 满足 { 检 验 或 ANOVA 的 参数 假设 ， 可 以 转 而 使 用 非 参数 方法 。 举 例 来 说 ， 知 结 
果 变 量 在 本 质 上 就 严重 偏 倚 或 呈现 有 序 关 系 ， 那 么 你 可 能 会 希望 使 用 本 节 中 的 方法 。 
7.5.1 两 组 的 比较 

若 两 组 数据 独立 ， 可 以 使 用 Wilcoxon 秩 和 检验 ( 更 广为人知 的 名 字 是 Mann-Whitney U 检 验 ) 
来 评估 观测 是 否 是 从 相同 的 概率 分 布 中 抽 得 的 ( 即 , 在 一 个 总 体 中 获得 更 高 得 分 的 概率 是 否 比 男 
一 个 总 体 要 大 )。 调 用 格式 为 : 

wilcox.test(y ~ x, data) 
其 中 的 > 是 数值 型 变量 ， 而 x 是 一 个 二 分 变量 。 调 用 格式 或 为 : 

wilcox.test (7y1，yY2) 
其 中 的 y1 和 y2 为 各 组 的 结果 变量 。 可 选 参数 data 的 取 值 为 一 个 包含 了 这 些 变量 的 矩阵 或 数据 框 。 
默认 进行 一 个 双 侧 检验 。 你 可 以 添加 参数 exact 来 进行 精确 检验 ， 指 定 alternative="less" 
或 alternative="greater" 进 行 有 方向 的 检验 。 

如 果 你 使 用 Mann-Whitney U 检 验 回答 上 一 节 中 关于 监禁 率 的 问题 ， 将 得 到 这 些 结果 : 


> with(UScrime，by(Prob，So，medqian) ) 















































S60 "0 
[1] 0.0382 
SO 卫 
[1] 0.0556 


> wilcox.test (Prob ~ So, data=UScrime) 
Wilcoxon rank sum test 


data: Prob. by So 
W = 81, p-value = 8.488e-05 
alternative hypothesis: true location shift is not equal to 0 


你 可 以 再 次 拒绝 南方 各 州 和 非 南方 各 州 监禁 率 相同 的 假设 (p<0.001 )。 

Wilcoxon 符 号 秩 检验 是 非 独立 样本 t 检 验 的 一 种 非 参数 替代 方法 。 它 适用 于 两 组 成 对 数据 和 
无 法 保证 正 态 性 假设 的 情境 。 调 用 格式 与 Mann-Whitney U 检 验 完全 相同 ， 不 过 还 可 以 添加 参数 
paired=TRUE。 让 我 们 用 它 解答 上 一 节 中 的 失业 率 问题 : 


> sapply (UScrime[c("U1l", "U2")], median) 
Ul U2 
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92 34 
> with(UScrime，wilcox.test(U1，U2，pairedq=TRUE) ) 
Wilcoxon signed rank test with continuity correction 


data: Ul and U2 
V = 1128, p-value = 2.464e-09 
alternative hypothesis: true location shift is not equal to 0 


你 再 次 得 到 了 与 配对 t 检 验 相同 的 结论 。 

在 本 例 中 ， 含 参 的 {检验 和 与 其 作用 相同 的 非 参数 检验 得 到 了 相同 的 结论 。 当 {检验 的 假设 合 
理 时 ， 参 数 检验 的 功效 更 强 ( 更 容易 发 现存 在 的 差异 )。 而 非 参 数 检验 在 假设 非常 不 合理 时 ( 如 
对 于 等 级 有 序数 据 ) 更 适用 。 


7.5.2 ”多 于 两 组 的 比较 


在 要 比较 的 组 数 多 于 两 个 时 ， 必 须 转 而 寻求 其 他 方法 。 考 虑 7.4 节 中 的 state .x77 数 据 集 。 
它 包 含 了 美国 各 州 的 人 口 、 收 入 、 文 盲 率 、 预 期 寿命 、 谋 杀 率 和 高 中 毕业 率 数据 。 如 果 你 想 比 较 
美国 四 个 地 区 ( 东北 部 南部、 中 北部 和 西部 ) 的 文 育 率 ,应 该 怎么 做 呢 ? 这 称 为 单 向 设计 ( one-way 
design )， 我 们 可 以 使 用 参数 或 非 参 数 的 方法 来 解决 这 个 问题 。 

如 果 无 法 满足 ANOVA 设 计 的 假设 ， 那 么 可 以 使 用 非 参 数 方法 来 评估 组 间 的 差异 。 如 果 各 组 
独立 ， 则 Kruskal-Wallis 检 验 将 是 一 种 实用 的 方法 。 如 果 各 组 不 独立 ( 如 重复 测量 设计 或 随机 区 组 
设计 )， 那 么 Friedman 检 验 会 更 合适 。 

Kruskal-Wallis 检 验 的 调用 格式 为 : 


kruskal.test(y ~ A, data) 


其 中 的 7 是 一 个 数值 型 结果 变量 ，a 是 一 个 拥有 两 个 或 更 多 水 平 的 分 组 变量 ( grouping variable )。 
( 若 有 两 个 水 平 ， 则 它 与 Mann-Whitney U 检 验 等 价 。) 而 Friedman 检 验 的 调用 格式 为 : 

friedman.test(y ~ 有 1 B, data) 
其 中 的 y 是 数值 型 结果 变量 ，A 是 一 个 分 组 变量 ,而 8 是 一 个 用 以 认定 匹配 观测 的 区 组 变量 
( blocking variable )。 在 以 上 两 例 中 ，data 丝 为 可 选 参数 ， 它 指定 了 包含 这 些 变 量 的 矩阵 或 数 
据 框 。 

让 我 们 利用 Kruskal-Wallis 检 验 回答 文盲 率 的 问题 。 首先, 你 必须 将 地 区 的 名 称 添加 到 数据 集 
中 。 这 些 信息 包 含 在 随 R 基 础 安装 分 发 的 state .region 数 据 集中 。 

states <- data.frame(state.region, state.x77) 

现在 就 可 以 进行 检验 了 : 


> kruskal.test (Illiteracy ~ state.region, data=states) 
Kruskal-Wallis rank sum test 

data: states$Illiteracy by states$state.region 

Kruskal-Wallis chi-squared = 22.7, df = 3, p-value = 4.726e-05 
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显著 性 检验 的 结果 意味 着 美国 四 个 地 区 的 文盲 率 各 不 相同 (p<0.001 )。 
虽然 你 可 以 拒绝 不 存在 差异 的 原 假设 , 但 这 个 检验 并 没有 告诉 你 哪些 地 区 显著 地 与 其 他 地 区 
不 同 。 要 回答 这 个 问题 ， 你 可 以 使 用 Wilcoxon 检 验 每 次 比较 两 组 数据 。 一 种 更 为 优雅 的 方法 是 在 
控制 犯 第 一 类 错误 的 概率 ( 发 现 一 个 事实 上 并 不 存在 的 差异 的 概率 ) 的 前 提 下 ， 执 行 可 以 同步 进 
行 的 多 组 比较 , 这 样 可 以 直接 完成 所 有 组 之 间 的 成 对 比较 ,我 写 的 函数 wmc ( ) 可 以 实现 这 一 目的 ， 
它 每 次 用 Wilcoxon 检 验 比 较 两 组 ， 并 通过 p .adj () 函数 调整 概率 值 。 

说 实话 ,我 将 本 章 标题 中 基本 的 定义 拓展 了 不 止 一 点 点 , 但 由 于 在 这 里 讲 非常 合适 ,所 以 希 
望 你 能 够 容 礼 我 的 做 法 。 你 可 以 从 www.statmethods.net/RiA/wmc.txt 上 下 载 到 一 个 包含 wmc ( ) 函数 
的 文本 文件 。 代 码 清单 7-17 通 过 这 个 函数 比较 了 美国 四 个 区 域 的 文 育 率 。 


代码 清单 7-17 
> source("http://ww.statmethods.net/RiA/wmc .txt") 
> states <- data.framel(stateé,region, state;x77) “0 得 到 函数 
> wmc (Illiteracy ~ state.region, data=states, method="holm") 




































































Descriptive Statistics 
© 基本 统计 量 

West North Central Northeast South 

n T1300 12:5:00 9.0 16.00 

median 0.60 0.70 ll 于 全 放生 

mad OS (0 lg Os3: “Oa59 

Multiple Comparisons (Wilcoxon Rank Sum Tests) 

Probability Adjustment = holm 8。 成 组 比较 
Group.1 Group.2 W | 

J West North Central 88 8.7e-01 

2 West Northeast 46 8.7e-01 

3 West South 39 1.8e-02 

4 North Central Northeast 20 5.4e-02 

5 North Central SOutl so 2 By LET05. 去 大 大 

6 Northeast South 18 1.2e-02 

Srif .GO Or EE 0 00. NEE. O00 HPO OD OL YH Dg 


source () 函数 下 载 并 执行 了 定义 wmc () 函数 的 R 脚 本 @。 也 数 的 形式 是 wmc (y ~ a，aata， 
method) ， 其 中 y 是 数值 输出 变量 ，A 是 分 组 变量 ，data 是 包含 这 些 变量 的 数据 框 ，method 指 定 
限制 [类 误差 的 方法 。 代 码 清单 7.17 使 用 的 是 基于 Holm ( 1979 ) 提出 的 调整 方法 ， 它 可 以 很 大 程 
度 地 控制 总 体 I 类 误差 率 ( 在 一 组 成 对 比较 中 犯 一 次 或 多 次 I 类 错误 的 概率 ), 参 阅 help (p.adjust) 
以 查看 其 他 可 供 选 择 的 方法 描述 。 

wmc ( ) 函数 首先 给 出 了 样本 量 、 样 本 中 位 数 、 每 组 的 绝对 中 位 差 @。 其 中 ,西部 地 区 ( West ) 
的 文盲 率 最 低 ， 南 部 地 区 ( South ) 文盲 率 最 高 。 然 后 ， 函 数 生成 了 六 组 统计 比较 ( 南部 与 中 北 
部 ( North Central )、 西 部 与 东北 部 (Northeast )、 西 部 与 南部 、 中 北部 与 东北 部 、 中 北部 与 南部 、 
东北 部 与 南部 ) 合 。 可 以 从 双 侧 p 值 (pb ) 看 到 ， 南 部 与 其 他 三 个 区 域 有 明显 差别 , 但 当 显 著 性 水 
平 p < 0.05 时 ， 其 他 三 个 区 域 间 并 没有 统计 显著 的 差别 。 
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非 参 数 多 组 比较 很 有 用 ， 但 在 R 中 的 实现 并 不 轻松 。 第 21 章 中 ,你 将 有 机 会 将 wmc () 函数 拓 
展 为 一 个 完整 的 可 做 误差 检验 、 信 息 图 表 的 R 包 。 


7.6 组 间 差 异 的 可 视 化 


在 7.4 节 和 7.5 节 中 ， 我 们 关注 了 进行 组 间 比 较 的 统计 方法 。 使 用 视觉 直观 地 检查 组 间 差 异 ， 
同样 是 全 面 的 数据 分 析 策 略 中 的 一 个 重要 组 成 部 分 。 它 允许 你 评估 差异 的 量 级, 甄别 出 任何 会 影 
响 结果 的 分 布 特征 〈 如 偏 傈 、 双 峰 或 离 群 点 ) 并 衡量 检验 假定 的 合理 程度 。R 中 提供 了 许多 比较 
组 间 数 据 的 图 形 方法 ， 其 中 包括 6.5 节 中 讲解 的 箱 线 图 ( 简单 箱 线 图 、 含 四 槽 的 箱 线 图 、 小 提琴 
)，6.4.1 节 中 全 加 的 核 密度 图 ,以 及 在 第 9 章 中 讨论 的 评估 检验 假定 的 图 形 方法 。 第 19 音 中 将 给 
出 更 高 级 的 用 于 组 间 差异 可 视 化 的 技术 ， 如 分 组 和 刻 面 等 。 



































7.7 小结 


在 本 革 中 ,我 们 评述 了 R 中 用 于 生成 统计 概要 和 进行 假设 检验 的 函数 。 我 们 关注 了 样本 统计 
量 和 频数 表 、 独 立 性 检验 和 类 别 型 变量 的 相关 性 度量 、 定 量变 量 的 相关 系数 ( 和 连带 的 显著 性 检 
验 ) 以 及 两 组 或 更 多 组 定量 结果 变量 的 比较 。 

















回归 ) 或 多 个 预测 变量 ( 多 元 回归 ) 与 某 个 被 预测 变量 或 效 标 变量 ( criterion variable ) 之 间 的 关 
系 。 图形 将 有 助 于 诊断 潜在 的 问题 、 评 估 和 提高 模型 的 拟 合 精度 ， 并 发 现 数据 中 意料 之 外 的 信息 
瑰宝 。 











中 级 方法 




















第 二 部 分 涵盖 了 作 图 和 统计 的 基本 方法 ， 而 第 三 部 分 将 介绍 一 些 中 级 方法 。 我 们 从 描述 两 
个 变量 之 间 的 关系 ， 转 换 到 第 8 章 中 使 用 回归 模型 到 对 数值 型 结果 变量 和 一 系列 数值 型 和 《或 ) 
类 别 型 预测 变量 之 间 的 关系 进行 建 模 。 建 模 通 第 都 是 一 个 复杂 、 多 步骤 、 交 互 的 过 程 。 第 8 章 
将 逐步 讲解 如 何 拟 合 线 性 模型 ， 评 价 模型 适用 性 ， 并 解释 模型 的 意义 。 
第 9 草 介 绍 基于 方差 分 析 及 其 变 体 对 基本 实验 和 准 实验 设计 的 分 析 。 在 这 一 章 中 ， 我 们 感 
兴趣 的 是 处 理 方式 的 组 合 ， 或 条 件 对 数值 型 结果 变量 的 影响 。 这 一 章 介 绍 R 函数 在 方差 分 析 、 
协 方差 分 析 、 重 复 测量 方差 分 析 、 多 因素 方差 分 析 和 多 元 方差 分 析 中 的 用 法 ， 同 时 还 讨论 模型 
适用 性 的 评价 方法 以 及 结果 的 可 视 化 。 
在 实验 和 准 实验 设计 中 ， 判 断 样 本 量 对 检测 处 理 效果 是 否 足 够 (功效 分 析 〉 非 常 重要 一 一 
否则 ， 为 何 要 做 这 些 研 究 呢 ? 第 10 章 详 细 介 绍 功效 分 析 。 在 讨论 假设 检验 后 ， 这 一 草 的 重点 是 
如 何 使 用 R 函数 判断 : 在 给 定 置信 度 的 前 提 下 ， 需 要 多 少 样本 才能 判断 处 理 效 果 。 这 个 结论 可 
以 帮助 我 们 安排 实验 和 准 实 验 研究 来 获得 有 用 的 结果 。 
第 11 章 扩展 了 第 5 章 的 内 容 ， 涵 盖 有 助 于 两 个 或 多 个 变量 间 关 系 可 视 化 的 图 形 绘制 ， 包 括 
各 种 2D 和 3D 的 散 点 图 、 散 点 图 矩阵 、 折 线 图 、 气 泡 图 ， 以 及 实用 但 相对 鲜 为 人 知 的 相关 图 和 
马赛 殉 图 。 
在 第 8 章 和 第 9 章 中 ， 回 归 模 型 的 假设 条 件 很 苛刻 : 结果 或 响应 变量 不 仅 是 数值 型 的 ， 而 
还 必须 来 自 正 态 分 布 的 随机 抽样 。 但 很 多 情况 并 不 满足 正 态 分 布 假设 ， 第 12 章 便 为 此 介绍 一 
些 稳 健 的 数据 分 析 方 法 ， 它 们 能 处 理 比较 复杂 的 情况 ， 比 如 数据 来 源 于 未 知 或 混合 分 布 、 小 样 
本 问题 、 恼 人 的 异常 值 ， 或 者 依据 理论 分 布设 计 假设 检验 很 复杂 而 且 数 学 上 非常 难处 理 。 这 
章 介绍 的 方法 包括 重 抽 样 和 上 自助 法 ， 这 些 涉及 大 量 计算 机 资源 的 方法 很 容易 在 R 中 实现 ， 人 允许 
你 对 那些 不 符合 传统 参数 假设 的 数据 修正 假设 检验 。 
阅读 完 第 三 部 分 ， 你 将 可 以 运用 这 些 工具 分 析 和 常见 的 实际 数据 分 析 问 题 ， 而 且 还 可 以 绘制 
一 些 非常 漂亮 的 图 形 ! 
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回归 








本 章 内 容 

口 拟 合并 解释 线性 模型 
口 检验 模型 假设 

口 模型 选择 




















从 许多 方面 来 看 ， 回 归 分 析 都 是 统计 学 的 核心 。 它 其 实 是 一 个 广义 的 概念 , 通 指 那些 用 一 个 
或 多 个 预测 变量 ( 也 称 自 变量 或 解释 变量 ) 来 预测 响应 变量 ( 也 称 因 变 量 、 效 标 变量 或 结果 变量 ) 
的 方法 。 通 常 ， 回 归 分 析 可 以 用 来 挑选 与 响应 变量 相关 的 解释 变量 ， 可 以 描述 两 者 的 关系 ， 也 可 
以 生成 一 个 等 式 ， 通 过 解释 变量 来 预测 响应 变量 。 

例如 , 一 位 运动 生理 学 家 可 通过 回归 分 析 获 得 一 个 等 式 , 预测 一 个 人 在 跑步 机 上 锻炼 时 预期 
消耗 的 卡路里 数 。 响 应 变量 即 消耗 的 卡路里 数 ( 可 通过 耗 氧 量 计算 获得 )， 预 测 变量 则 可 能 包括 
锻炼 的 时 间 (分 )、 处 于 目标 心率 的 时 间 比 、 平 均 速度 (英里 /小 时 )、 年 龄 (年 )、 性 别 和 身体 质 
量 指数 ( BMI )。 

从 理论 的 角度 来 看 ， 回 归 分 析 可 以 帮助 解答 以 下 疑问 。 
口 锻炼 时 间 与 消耗 的 卡路里 数 是 什么 关系 ? 是 线性 的 还 是 曲线 的 ? 比如 ， 卡 路 里 消耗 到 某 
个 点 后 ， 锻 和 陈 对 卡路里 的 消耗 影响 会 变 小 吗 ? 
口 耗费 的 精力 (处 于 目标 心率 的 时 间 比 ， 平 均 行 进 速 度 ) 将 被 如 何 计算 在 内 ? 
口 这 些 关系 对 年 轻 人 和 老人 、 男 性 和 女性 、 肥 胖 和 苗条 的 人 同样 适用 吗 ? 
从 实际 的 角度 来 看 ， 回 归 分 析 则 可 以 帮助 解答 以 下 疑问 。 
口 一 名 30 岁 的 男性 ，BMI 为 28.7， 如 果 以 每 小 时 4 英里 的 速度 行走 4 分钟 ， 并 且 80% 的 时 间 
都 在 目标 心率 内 ， 那 么 他 会 消耗 多 少 卡路里 ? 
口 为 了 准确 预测 一 个 人 行走 时 消耗 的 卡路里 数 ， 你 需要 收集 的 变量 最 少 是 多 少 个 ? 
口 预测 的 准确 度 可 以 达到 多 少 ? 

由 于 回归 分 析 在 现代 统计 学 中 非常 重要 , 本 章 将 对 其 进行 一 些 深度 讲解 。 首 先 ,我 们 将 看 一 
看 如 何 拟 合 和 解释 回归 模型 ， 然 后 回顾 一 系列 鉴别 模型 潜在 问题 的 方法 ， 并 学 习 如 何 解决 它们 。 
其 次 , 我们 将 探究 变量 选择 问题 。 对 于 所 有 可 用 的 预测 变量 ， 如 何 确定 哪些 变量 包含 在 最 终 的 模 
型 中 ? 再 次 , 我 们 将 讨论 一 般 性 问题 。 模 型 在 现实 世界 中 的 表现 到 底 如 何 ?” 最 后 , 我 们 再 看 看 相 
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对 重要 性 问题 。 模 型 所 有 的 预测 变量 中 ， 哪 个 最 重要 ， 哪 个 第 二 重要 ， 哪 个 最 无 关 紧 要 ? 

正如 你 所 看 到 的 , 我 们 会 涵盖 许多 方面 的 内 容 。 有 效 的 回归 分 析 本 就 是 一 个 交互 的 、 整 体 的 、 
多 步骤 的 过 程 ， 而 不 仅仅 是 一 点 技巧 。 为 此 ， 本 书 并 不 将 它 分 散 到 多 个 章 中 进行 讲解 ， 而 是 用 单 
独 的 一 章 来 讨论 。 因 此 ， 这 一 章 将 成 为 本 书 最 长 、 最 复杂 的 一 章 。 只 要 坚持 到 最 后 ,我 保证 你 一 
定 可 以 掌握 所 有 的 工具 ， 上 自如 地 处 理 许多 研究 性 问题 ! 


8.1 回归 的 多 面 性 


回归 是 一 个 令 人 困惑 的 词 ， 因 为 它 有 许多 特殊 变种 〈 见 表 8-1 )。 对 于 回归 模型 的 拟 合 ，R 提 
供 的 强大 而 丰富 的 功能 和 选项 也 同样 令 人 困惑 。 例 如 ，2005 年 Vito Ricci 创 建 的 列表 表明 ，R 中 做 
回归 分 析 的 函数 已 超过 了 205 个 (http://cran.r-project.org/doc/contrib/Ricci-refcardregression.pdf )。 









































表 8-1 回归 分 析 的 各 种 变 体 
回归 类 型 用 途 



























































简单 线性 用 一 个 量化 的 解释 变量 预测 一 个 量化 的 响应 变量 

多 项 式 用 一 个 量化 的 解释 变量 预测 一 个 量化 的 响应 变量 ,模型 的 关系 是 n 阶 多 项 式 

多 层 用 拥有 等 级 结构 的 数据 预测 一 个 响应 变量 ( 例如 学 校 中 教室 里 的 学 生 )。 也 被 称 为 分 层 模 型 、 访 套 模 
型 或 混合 模型 





多 元 线性 用 两 个 或 多 个 量化 的 解释 变量 预测 一 个 量化 的 响应 变量 
多 变量 用 一 个 或 多 个 解释 变量 预测 多 个 响应 变量 
Logistic 用 一 个 或 多 个 解释 变量 预测 一 个 类 别 型 响应 变 
用 
用 











量 
一 个 或 多 个 解释 变量 预测 一 个 代表 频数 的 响应 变量 
























































泊 松 

Cox 比例 风险 一 个 或 多 个 解释 变量 预测 一 个 事件 〈 和 死亡 、 失 败 或 旧病 复发 ) 发 生 的 时 间 

时 间 序 列 对 误差 项 相关 的 时 间 序列 数据 建 模 

非 线性 用 一 个 或 多 个 量化 的 解释 变量 预测 一 个 量化 的 响应 变量 ， 不 过 模型 是 非 线性 的 

非 参 数 用 一 个 或 多 个 量化 的 解释 变量 预测 一 个 量化 的 响应 变量 ， 模 型 的 形式 源 自 数据 形式 ， 不 事先 设 定 
稳健 用 一 个 或 多 个 量化 的 解释 变量 预测 一 个 量化 的 响应 变量 ， 能 抵御 强 影 响 点 的 干扰 





























在 这 一 章 中 ,我 们 的 重点 是 普通 最 小 二 来 ( OLS ) 回归 法 ,包括 简单 线性 回归 、 多 项 式 回归 
和 多 元 线性 回归 。OLS 回 归 是 现今 最 常见 的 统计 分 析 方 法 , 其 他 回归 模型 ( Logistic 回 归 和 泊 松 回 
归 ) 将 在 第 13 章 介绍 。 


8.1.1 ”OLS 回归 的 适用 情境 


OLS 回 归 是 通过 预测 变量 的 加 权 和 来 预测 量化 的 因 变 量 , 其 中 权重 是 通过 数据 估计 而 得 的 参 
数 。 现 在 让 我 们 一 起 看 一 个 改编 自 Fwa ( 2006 ) 的 具体 示例 〈 此 处 没有 任何 含 沙 射影 之 意 )。 

一 名 工程 师 想 找 出 跟 桥 梁 退 化 有 关 的 最 重要 的 因素 ， 比 如 使 用 年 限 、 交 通 流量 、 桥 梁 设 计 、 
建造 材料 和 建造 方法 、 建 造 质量 以 及 天 气 情况 ,并 确定 它们 之 间 的 数学 关系 。 他 从 一 个 有 代表 性 
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的 桥梁 样本 中 收集 了 这 些 变 量 的 相关 数据 ， 然 后 使 用 OLS 回 归 对 数据 进行 建 模 。 

这 种 方法 的 交互 性 很 强 。 他 拟 合 了 一 系列 模型 ,检验 它们 是 否 符合 相应 的 统计 假设 , 探索 了 
所 有 异常 的 发 现 ， 最 终 从 许多 可 能 的 模型 中 选择 了 “最 佳 ”的 模型 。 如 果 成 功 ,那么 结果 将 会 帮 
助 他 完成 以 下 任务 。 
口 在 众多 变量 中 判断 哪些 对 预测 桥梁 退化 是 有 用 的 ， 得 到 它们 的 相对 重要 性 ， 从 而 关注 重 
要 的 变量 。 

口 根据 回归 所 得 的 等 式 预 测 新 的 桥梁 的 退化 情况 〈 预测 变量 的 值 已 知 ， 但 是 桥梁 退化 程度 

未 知 )， 找 出 那些 可 能 会 有 麻烦 的 桥梁 。 

口 利用 对 异常 桥梁 的 分 析 ， 获 得 一 些 意外 的 信息 。 比 如 他 发 现 某 些 桥梁 的 退化 速度 比 预测 
的 更 快 或 更 慢 ， 那 么 研究 这 些 “ 离 群 点 ”可 能 会 有 重大 的 发 现 ， 能 够 帮助 理解 桥梁 退化 
的 机 制 。 

可 能 桥梁 的 例子 并 不 能 引起 你 的 兴趣 。 而 且 我 是 从 事 临床 心理 学 和 统计 的 , 对 土木 工程 也 是 
一 无 所 知 , 但 是 这 其 中 蕴含 的 一 般 性 思想 适用 于 物理 、 生 物 和 社会 科学 的 许多 问题 。 以 下 问题 都 
可 以 通过 OLS 方 法 进行 处 理 。 

D 铺路 表面 的 面积 与 表面 盐 度 有 什么 关系 ( Montogomery，2007 ) ? 

口 一 个 用 户 哪 些 方面 的 经 历 会 导致 他 沉溺 于 大 型 多 人 在 线 角 色 扮 演 游戏 ( MMORPG; Hsu， 

Wen & Wu, 2009)? 

口 教育 环境 中 的 哪些 因素 最 能 影响 学 生成 绩 得 分 ? 

口 血压 、 盐 摄 入 量 和 年 龄 的 关系 是 什么 样 的 ?对 于 男性 和 女性 是 相同 的 吗 ? 

口 运动 场馆 和 职业 运动 对 大 都 市 的 发 展 有 何 影 响 ( Baade & Dye，1990 ) ? 

口 哪些 因素 可 以 解释 各 州 的 啤酒 价格 差异 (Culbertson & Bradford，1991 ) ? (这 个 问题 终 
于 引起 了 你 的 注意 ! ) 

我 们 主要 的 困难 有 三 个 : 发 现 有 趣 的 问题 ， 设计 一 个 有 用 的 、 可 以 测量 的 响应 变量 ， 以 及 
收集 合适 的 数据 。 














































































































8.1.2 ”基础 回顾 


下 面 的 几 节 ， 我 将 介绍 如 何 用 RR 函数 拟 合 OLS 回 归 模 型 、 评 价 拟 合 优 度 、 检 验 假设 条 件 以 及 
选择 模型 。 此 处 假定 读者 已 经 在 本 科 统 计 课程 第 二 学 期 接触 了 最 小 二 乘 回 归 法 , 不 过 我 还 是 会 尽 
量 少 用 数学 符号 ,关注 实际 运用 而 不 是 理论 细节 。 有 大 量 优秀 书籍 都 介绍 了 本 章 提 到 的 统计 知识 。 
我 最 喜欢 的 是 John Fox 的 4pplied Regression Analysis and Generalized Linear Models ( 偏重 理论 ) 和 
An Rand S-Plus Companion to Applied Regression( 偏重 应 用 )， 它 们 为 本 章 提供 了 主要 的 素材 。 另 
外 ， 一 份 不 错 的 非 技术 性 综述 可 以 参考 Licht ( 1995 )。 





























8.2 OLS 回归 
在 本 章 大 部 分 内 容 中 , 我 们 都 是 利用 OLS 法 通过 一 系列 的 预测 变量 来 预测 响应 变量 ( 也 可 以 
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说 是 在 预测 变量 上 “回归 ”响应 变量 一 一 其 名 也 因此 而 来 OLS 回归 拟 合 模 型 的 形式 : 
了 = 启 + 局 1 tt BX i=1n 
其 中 ，n 为 观测 的 数目 ，k 为 预测 变量 的 数目 。( 虽然 我 极力 避免 讨论 公式 ,但 这 里 探讨 公式 是 外 
化 问题 的 需要 。) 等 式 中 相应 部 分 的 解释 如 下 。 
六 1 次 观测 对 应 的 因 变 量 的 预测 值 ( 具体 来 讲 ， 它 是 在 已 知 预测 变量 值 的 条 件 
， 对 了 分 布 估计 的 均值 ) 
1 1 对 应 的 第 /个 预测 变量 值 
罗 截 距 项 ( 当 所 有 的 预测 变量 都 为 0 时 ， 了 的 预测 值 ) 
局 预测 变量 /的 回归 系数 ( 儿 率 表示 政变 一 个 单位 所 引起 的 7 的 改变 量 ) 


我 们 的 目标 是 通过 减少 响应 变量 的 真实 值 与 预测 值 的 差 值 来 获得 模型 参数 ( 截 距 项 和 斜率 )。 
具体 而 言 ， 即 使 得 残 差 平方 和 最 小 。 


2 (7 一 六) => (¥, -Pp +pX, 二 应 基站 = 2 


为 了 能 够 恰当 地 解释 OLS 模 型 的 系数 ， 数 据 必须 满足 以 下 统计 假设 。 

口 正 态 性 “对 于 固定 的 自 变量 值 ， 因 变量 值 成 正 态 分 布 。 

口 独立 性 7 值 之 间 相互 独立 。 

口 线性 ” 因 变 量 与 自 变 量 之 间 为 线性 相关 ，。 

口 同方 差 性 ” 因 变 量 的 方差 不 随 自 变量 的 水 平 不 同 而 变化 。 也 可 称 作 不 变 方差 ,但 是 说 同 
方差 性 感觉 上 更 犀利 。 
如 果 违 背 了 以 上 假设 , 你 的 统计 显著 性 检验 结果 和 所 得 的 置信 区 间 就 很 可 能 不 精确 了 。 注意， 

OLS 回 归还 假定 自 变量 是 固定 的 且 测 量 无 误差 ， 但 在 实践 中 通常 都 放松 了 这 个 假设 。 
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8.2.1 用 lm() 拟 合 回归 模 型 
在 R 中 ， 拟 合 线性 模型 最 基本 的 函数 就 是 lm() ， 格 式 为 : 


myfit <- lm(formula, data) 
其 中 ，formula 指 要 拟 合 的 模型 形式 ，data 是 一 个 数据 框 ， 包含 了 用 于 拟 合 模 型 的 数据 。 结 果 
对 象 (本 例 中 是 myfit ) 存储 在 一 个 列表 中 , 包含 了 所 拟 合 模 型 的 大 量 信息 。 表 达 式 ( formula ) 
形式 如 下 : 

Y~Xl +X2 + ... + Xk 
~ 左边 为 啊 应 变量 ， 右 边 为 各 个 预测 变量 ， 预 测 变量 之 间 用 + 符号 分 隔 。 表 8-2 中 的 符号 可 以 用 不 
同方 式 修改 这 一 表达 式 。 















































162 第 8 章 回归 





表 8-2 ”R 表 达 式 中 常用 的 符号 














符 ”号 用 途 
- 分 隔 符号 ， 左 边 为 响应 变量 ， 右 边 为 解释 变量 。 例 如 ， 要 通过 x、z 和 预测 y， 代 码 为 > ~ x + 2 + 
+ 分 隔 预 测 变量 








表示 预测 变量 的 交互 项 。 例 如 ， 要 通过 x、z 及 x 与 z 的 交互 项 预测 y, 代码 为 y ~ x + z + XxX:2z 





: 表示 所 有 可 能 交互 项 的 简洁 方式 。 代 码 y~ x * z * w 可 展开 为 y ~x+2zZ+w+ XZ + XIW + Zwt+ 
X:Z:W 
表示 交互 项 达到 某 个 次 数 。 代码 y ~ (XxX+2Z + w)’2 可 展开 为 y ~X+2Z+W+ Xx:Z+ XxX:wW+ Zw 








表示 包含 除 因 变 量 外 的 所 有 变量 。 例 如 ， 若 一 个 数据 框 包含 变量 x、y、z 和 w, 代码 y ~ .可 展开 为 y ~ 


Ds 


s 减 号 ， 表示 从 等 式 中 移 除 茶 个 变量 。 例如 ,yy ~ (x + z+ w)^2 -x:w 可 展开 为 y ~x+z+wt+ 


3 出 除 截 中 项。 例如 ,表达 式 y ~ x - 工 拟 合 y 在 x 上 的 回归 ， 并 强制 直线 通过 原点 

I() 从 算术 的 角度 来 解释 括号 中 的 元 素 。 例 如 ，y ~ x + (z + w)^2 将 展开 为 y ~ x+ z+w+ Ziwo 
相反 ,代码 y ~ x + I((z + w)^2) 将 展开 为 y ~ x + h, h 是 一 个 由 z 和 w 的 平方 和 创建 的 新 变量 
function 可 以 在 表达 式 中 用 的 数学 函数 。 例 如 ，log(ty) ~ x + z + w 表示 通过 x、z 和 w 来 预测 1og(y) 













































































除了 lm( ， 表 8-3 还 列 出 了 其 他 一 些 对 做 简单 或 多 元 回归 分 析 有 用 的 函数 。 拟 合 模型 后 ， 将 
这 些 函 函数 应 用 于 lm) 返回 的 对 象 ， 可 以 得 到 更 多 额外 的 模型 信息 。 


表 8-3 ”对 拟 合 线性 模型 非常 有 用 的 其 他 函数 































































































函 数 用 途 

summary () 展示 拟 合 模 型 的 详细 结果 
coefficients () 列 出 拟 合 模型 的 模型 参数 〈 截 距 项 和 和 斜率 ) 
confint () 提供 模型 参数 的 置信 区 间 ( 默认 95% ) 
fitted() 列 出 拟 合 模型 的 预测 值 
residuals() 列 出 拟 合 模型 的 残 差 值 
anova() 生成 一 个 拟 合 模型 的 方差 分 析 表 ， 或 者 比较 两 个 或 更 多 拟 合 模型 的 方差 分 析 表 
vcov () 列 出 模型 参数 的 协 方差 矩阵 
AIC() 输出 赤 池 信息 统计 量 
plot () 生成 评价 拟 合 模型 的 诊断 图 
predict () 用 拟 合 模 型 对 新 的 数据 集 预 测 响应 变量 值 

当 回 归 模 型 包含 变量 和 一 个 自 变量 时 ,我们 称 为 简单 线性 回归 。 当 只 有 一 个 预测 变量 ， 








人 我 们 称 为 多 项 式 回 归 。 当 有 不 止 一 个 预测 变量 时 ， 
则 称 为 多 元 线性 回归 。 现在 , 我 们 首先 从 一 个 简单 的 线性 回归 例子 开始 ,然后 逐步 展示 多 项 式 回 
归 和 多 元 线性 回归 ， 最 后 还 会 介绍 一 一 个 包 合 交 蔚 项 的 多 元 线性 同上 的 例子 。 
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8.2.2 简单 线性 回归 


证 我 们 通过 一 个 回归 示例 来 熟悉 表 8-3 中 的 函数 。 基 础 安装 中 的 数据 集 women 提 供 了 15 个 年 
龄 在 30~39 岁 间 女 性 的 身高 和 体重 信息 ， 我 们 想 通 过 身高 来 预测 体重 ， 获 得 一 个 等 式 可 以 帮助 我 
们 分 辨 出 那些 过 重 或 过 轻 的 个 体 。 代 码 清单 8-1 提 供 了 分 析 过 程 ， 图 8-1 展 示 了 结果 图 形 。 


代码 清单 8-1 简单 线性 回归 


> fit <- lm(weight ~ height, data=women) 
> summary (fit) 





























Cell 
lm(formula=weight ~ height, data=women) 


Residuals: 
Min 1Q Median 30 Max 
3 L303 Lt 0742 BEL 


Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) -87.5167 5 29386889 i RY 二 
height 3.4500 0.0911 3 
ST 人 OQESE 0 0 于 于 先导 宝洁 O00 i 


Residual standard error: 1.53 on 13 degrees of freedom 
Multiple R-squared: 0.991， Adjusted R-squared: 0.99 
F-statistic: 1.43e+03 on 1 angd 13 DF, p-value: 1.09e-14 


> womensweight 


[1] 115 117 120 123 126 129 132 135 139 142 146 150 154 159 164 





> fitted(fit) 


T 2 3 4 5 6 7 8 9 
T1258. T1603: L1948 22593 126.38 L129,.83: L3328" 136.73 14140518 
10 11 12 13 14 15 


143.63. 147.08°150:.53. 153.98 157.43, .1€0:.88 


> residuals (fit) 
1 2 3 4 3 6 7 8 9 10 | 
254210597 "0552° .0,07 “0s38 =0583 m1.28 -1%73 L118 m1363. 1208 
12 13 14 15 
S053 "0027 T5732 


> plot (women$sheight,womens$weight, 
xlab="Height (in inches)" 
ylab="Weight (in pounds)") 
> abline (fit) 
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Weight (in pounds) 
130 140 150 160 


120 





58 60 62 64 66 68 70 -2 


Height (in inches) 


图 8-1 用 身高 预测 体重 的 散 点 图 以 及 回归 线 
通过 输出 结果 ， 可 以 得 到 预测 等 式 : 








ee 
Weight = —87.52+3.45xHeight 


因为 身高 不 可 能 为 0, 所 以 没 必 要 给 截 距 项 一 个 物理 解释 , 它 仅仅 是 一 个 常量 调整 项 ,在 Pr(>|t|) 
栏 ， 可 以 看 到 回归 系数 (3.45 ) 显著 不 为 0 (p<0.001 )， 表 明 身 高 每 增高 1 英寸 ， 体 重 将 预期 增加 
3.45 磅 "。R 平 方 项 (0.991 ) 表明 模型 可 以 解释 体重 99.1% 的 方差 ， 它 也 是 实际 和 预测 值 之 间 相 关 
系数 的 平方 (R=r7yy )。 残 差 标准 误 (1.53 lbs ) 则 可 认为 是 模型 用 身高 预测 体重 的 平均 误差 。F 
统计 量 检 验 所 有 的 预测 变量 预测 响应 变量 是 否 都 在 某 个 几率 水 平 之 上 。 由 于 简单 回归 只 有 一 个 预 
测 变量 ， 此 处 F 检 验 等 同 于 身高 回归 系数 的 t 检 验 。 

出 于 展示 的 需要 , 我 们 已 经 输出 了 真实 值 、 预 测 值 和 残 差 值 。 显然 , 最 大 的 残 差 值 在 身高 矮 
和 身高 高 的 地 方 出 现 ， 这 也 可 以 从 图 8-1 看 出 来 。 

图 形 表明 你 可 以 用 含 一 个 弯曲 的 曲线 来 提高 预测 的 精度 。 比 如 ， 模 型 了 = 户 +BX+BX? 就 
能 更 好 地 拟 合 数据 。 多 项 式 回归 允许 你 用 一 个 解释 变量 预测 一 个 响应 变量 ， 它 们 关系 的 形式 即 m 
次 多 项 式 。 






























































8.2.3 ”多项式 回归 


图 8-1 表 明 ， 你 可 以 通过 添加 一 个 二 次 项 ( 即 系 ) 来 提高 回归 的 预测 精度 。 
如 下 代码 可 以 拟 合 含 二 次 项 的 等 式 : 


fit2 <- lm(weight ~ height + I(height^2), data=women) 





Oz 1 英寸 二 2.54 厘 米 ，1 磅 二 0.45 千 克 。 一 一 编者 注 
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I (height^2) 表 示 向 预测 等 式 添加 一 个 身高 的 平方 项 。I 函 数 将 括号 的 内 容 看 作 R 的 一 个 常规 表 
达 式 。 因 为 ~( 参见 表 8-2 ) 符号 在 表达 式 中 有 特殊 的 含义 ， 会 调用 你 并 不 需要 的 东西 ， 所 以 此 处 
必须 要 用 这 个 函数 。 

代码 清单 8-2 展 示 了 拟 合 含 二 次 项 等 式 的 结果 。 


代码 清单 8-2 ”多 项 式 回归 
> fit2 <- lm(weight ~ height + I(height^2), data=women) 
> summary (fit2) 








aL 
lm(formula=weight ~ height + I(height^2), data=women) 


Residuals: 
Min 1Q Median 3Q Max 
0mS5094 S02961. 01000945 032862 150.597T 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) 261.87818 25., 19:677 L039 全 
Height -7.34832 0.77769 ~ 94 6 06607 
I(height^2) 0.08306 0.00598 L389 9.38=09 wh 


Sitonit. GOSS: 0 TE O00 PRET OQ sO TR OO FO 


Residual standard error: 0.384 on 12 degrees of freedom 
Multiple R-squared: 0.999 ， Adjusted R-squared: 0.999 
F-statistic: 1.14e+04 on 2 and 12 DF, p-value: <2e-16 


> plot (womensheight,womens$sweight, 
xlab="Height (in inches)", 


ylab="Weight (in lbs)" 
> lines (womensheight, fitted (fit2)) El 


新 的 预测 等 式 为 : 





Weight = 261.88 — 7.35 x Height + 0.083 x Heighe 
在 p<0.001 水 平 下 ， 回 归 系 数 都 非常 显著 。 模 型 的 方差 解释 率 已 经 增加 到 了 99.9%。 二 次 项 的 


显著 性 (二 13.89，p<0.001 ) 表明 包含 二 次 项 提高 了 模型 的 拟 合 度 。 从 图 8-2 也 可 以 看 出 曲线 确实 
拟 合 得 较 好 。 
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Weight (in Ibs) 
140 150 160 


130 


120 


58 60 62 64 66 68 70 72 


Height (in inches) 


图 8-2 用 身高 预测 体重 的 二 次 回归 











线性 模型 与 非 线 性 模型 
多 项 式 等 式 仍 可 认为 是 线性 回归 模型 ,因为 等 式 仍 是 预测 变量 的 加 权 和 形式 ( 本 例 中 是 身 
高 和 身高 的 平方 )。 即 使 这 样 的 模型 : 
7 = xlogXX, + 局 xsinX, 
仍 可 认为 是 线性 模型 ( 参数 项 是 线性 的 )， 能 用 这 样 的 表达 式 进行 拟 合 : 
Se ol Se fe (ee) 


相反 ， 下 面 的 例子 才能 算是 真正 的 非 线 性 模型 : 





一 般 来 说 ，n 次 多 项 式 生 成 一 个 n-1 个 弯曲 的 曲线 。 拟 合 三 次 多 项 式 ， 可 用 : 
fit3 <- lm(weight ~ height + I(height^2) +I(height^3), data=women) 
虽然 更 高 次 的 多 项 式 也 可 用 ， 但 我 发 现 使 用 比 三 次 更 高 的 项 几乎 没有 必要 。 
在 继续 下 文 之 前 , 我 还 要 提 及 car 包 中 的 scatterplot () 隐 数 , 它 可 以 很 容易 、 方 便 地 绘 汕 
二 元 关系 图 。 以 下 代码 能 生成 图 8-3 所 示 的 图 形 : 
library (car) 
scatterplot (weight ~ height, data=women, 
spread=FALSE, smoother.args=list (lty=2), pch=19, 
main="Women Age 30-39", 


xlab="Height (inches)", 
ylab="Weight (lbs.)") 
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图 8-3 ”身高 与 体重 的 散 点 图 。 直 线 为 线性 拟 合 ， 虚 线 为 曲线 平滑 拟 合 ， 边 界 为 箱 线 图 


这 个 功能 加 强 的 图 形 ， 既 提供 了 身高 与 体重 的 散 点 图 、 线 性 拟 合 曲线 和 平滑 拟 合 (loess ) 曲 
线 , 还 在 相应 边界 展示 了 每 个 变量 的 箱 线 图 。spread=FALSE 选 项 删除 了 残 差 正 负 均 方 根 在 平滑 
曲线 上 的 展开 和 非 对 称 信 息 。smoother .args=list(lty=2) 选 项 设置 loess 拟 合 曲线 为 虚线 。 
pch=19 选 项 设置 点 为 实心 圆 〈 默 认为 空心 圆 )。 粗 略 地 看 一 下 图 8-3 可 知 ， 两 个 变量 基本 对 称 ， 
曲线 拟 合 得 比 直线 更 好 。 























8.2.4 多 元 线性 回归 


当 预 测 变量 不 止 一 个 时 ， 简 单线 性 回归 就 变 成 了 多 元 线性 回归 ， 分 析 也 稍微 复杂 些 。 从 技术 
上 来 说 ， 多 项 式 回 归 可 以 算是 多 元 线性 回归 的 特例 : 二 次 回归 有 两 个 预测 变量 (XfX ), 三 次 回 
归 有 三 个 预测 变量 (和 、 系 和 和 )。 现 在 让 我 们 看 一 个 更 一 般 的 例子 。 

以 基础 包 中 的 state.x77 数 据 集 为 例 , 我 们 想 探究 一 个 州 的 犯罪 率 和 其 他 因素 的 关系 , 包括 
人 口 、 文 育 率 、 平 均 收 入 和 结 霜 天 数 ( 温度 在 冰点 以 下 的 平均 天 数 )。 

因为 1m() 函数 需要 一 个 数据 框 ( state.x77 数 据 集 是 矩阵 ), 为 了 以 后 处 理 方便 ,你 需要 做 
如 下 转化 : 


states <- as.data.frame(state.x77[,c("Murder", "Population", 
"Illiteracy", "Income", "Frost")]) 


这 行 代码 创建 了 一 个 名 为 states 的 数据 框 ， 包 含 了 我 们 感 兴趣 的 变量 。 本 章 的 余下 部 分 ， 我 们 
都 将 使 用 这 个 新 的 数据 框 。 

多 元 回归 分 析 中 ,第 一 步 最 好 检查 一 下 变量 间 的 相关 性 。cor () 函数 提供 了 二 变量 之 间 的 相 
关系 数 , car 包 中 scatterplotMatrix() 函数 则 会 生成 散 点 图 矩 阵 ( 参见 代码 清单 8-3 和 图 8-4 )。 
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代码 清单 8-3 ”检测 二 变量 关系 
> states <- as.data.frame(state.x77[,c("Murder", "Population", 
"IIliteracy",. "INoome"., EIOSt")]) 


> corl(stat 


Murder 
Population 
Illiteracy 
Income 
Frost 


> Library 


es) 


Murder Population Illiteracy Income Frost 


1.00 
0.34 
0.70 
=0.23 
-0.54 


car) 


0.34 人 -70 0 
1.00 0.11 0 . 
Qs EL 1.00 ~—0: 
QE -0.44 Te 
=0533 = 二 0767 0 . 


“23 


21 
44 
00 
23 


-0.554 
=0.33 
-0..67 
O23 
1.00 


> scatterplotMatrix(states, spread=FALSE, smoother.args=list (lty=2), 
main="Scatter Plot Matrix") 





图 8-4 


scatterplotMatrix() 


拟 合 曲 线 。 对 角 线 区 域 绘制 每 个 变量 的 密度 
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州 府 数据 中 因 变 量 与 自 变 量 的 散 点 图 矩阵 。 
相应 的 边际 分 布 〈 核 密度 图 和 轴 须 图 ) ) 








) 函数 默认 在 非 对 角 线 区 域 





























从 图 中 可 以 看 到 , 谋杀 率 是 双 峰 的 曲线 ,每 个 预测 变 
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意图 和 轴 须 图 。 
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(包含 线性 和 平滑 拟 合 曲线 ， 以 及 





量 都 一 定 程度 上 





判 变量 间 的 散 点 图 ， 并 添加 平滑 和 线性 


出 现 了 偏 斜 。 谋 杀 率 随 
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着 人 口 和 文盲 率 的 增加 而 增加 ， 随 着 收入 水 平和 结 霜 天 数 增加 而 下 降 。 同时, 越 冷 的 州 府 文盲 率 
越 低 ， 收 入 水 平 越 高 。 
现在 使 用 lm () 函数 拟 合 多 元 线性 回归 模型 (参见 代码 清单 8-4 )。 


代码 清单 8-4 ”多 元 线性 回归 
> states <- as.data.frame(state.x77[,c("Murder", "Population", 
"TIliteracy "Incomer.. -Erostr)l) 


> fit <- lm(Murder ~ Population + Illiteracy + Income + Frost, 
data=states) 
> summary (fit) 
Call: 
lm(formula=Murder ~ Population + Illiteracy + Income + Frost, 
data=states) 


Residuals: 
Min 1Q Median 30 Max 
SU T7960. 1 .6495 S00Q8LL. LT.4815> 77262190 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) 1.23e+00 3.87e+00 Qi32 Qa 5T. 
Population 2.24e-04 9.05e-05 2 .7 QQ 
Illiteracy 4.14e+00 8.74e-01 4.74 2.2e-05 *** 
Income 6.44e-05 6.84e-04 0.09 0.925 
Frost 5.81e-04 1.01e-02 0.06 0.954 


Signit.. oOdeess 0 TR 0 O00L TEE ro OT WY QO v0 SL 


Residual standard error: 2.5 on 45 degrees of freedom 
Multiple R-squared: 0.567, Adjusted R-squared: 0.528 
F-statistic: 14.7 on 4 and 45 DF, p-value: 9.13e-08 


当 预 测 变 量 不 止 一 个 时 ,回归 系数 的 含义 为 : 一 个 预测 变量 增加 一 个 单位 ， 其 他 预测 变量 保 
持 不 变 时 ， 因 变量 将 要 增加 的 数量 。 例 如 本 例 中 ,文盲 率 的 回归 系数 为 4.14， 表 示 控 制 人 口 、 收 
人 和 温度 不 变 时 ,文盲 率 上 升 1%， 谋杀 率 将 会 上 升 4.14%， 它 的 系数 在 p<0.001 的 水 平 下 显著 不 
为 0。 相 反 ，Frost 的 系数 没有 显著 不 为 0 (p=0.954 )， 表 明 当 控制 其 他 变量 不 变 时 ，Frost 与 Murder 

星 线性 相关 。 总 体 来 看 ， 所 有 的 预测 变量 解释 了 各 州 谋杀 率 57% 的 方差 。 

以 上 分 析 中 , 我 们 没有 考虑 预测 变量 的 交互 项 。 在 接 下 来 的 一 节 中 , 我 们 将 考虑 一 个 包含 此 

因素 的 例子 。 


8.2.5 ”有 交互 项 的 多 元 线性 回归 


许多 很 有 趣 的 研究 都 会 涉及 交互 项 的 预测 变量 。 以 mtcars 数 据 框 中 的 汽车 数据 为 例 ， 若 你 
对 汽车 重量 和 马力 感 兴趣 ， 可 以 把 它们 作为 预测 变量 ， 并 包含 交互 项 来 拟 合 回归 模型 ， 参 见 代码 
清单 8-5。 
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代码 清单 8-5 有 显著 交互 项 的 多 元 线性 回归 
> fit <- lm(mpg ~ hp + wt + hp:wt, data=mtcars) 
> summary (fit) 
Call: 
lm(formula=mpg ~ hp + wt + hp:wt, data=mtcars) 


Residuals: 
Min 1Q Median 3Q Max 
3063 -1049 -=0736. “1s42L ,4 S55. 


Coefficients: 
Estimate Std. Error t value Pr(>|t|) 


(Intercept) 49.80842 3.60516 T3282 DrOe=Td 
hp -0.12010 0.02470 -4.86 4.0e-05 *** 
wt -8.21662 1:26971 二 0% 这 2 E07 伟 玉 本 
hp:wt 0.02785 0.00742 3 75. | O000081 < 
SignmEf, :COdess -QO. TEEEY OQ OO SEET IOROL ME O05 TT Oa 


Residual standard error: 2.1 on 28 degrees of freedom 
Multiple R-squared: 0.885, Adjusted R-squared: 0.872 
F-statistic: 71.7 on 3 angd 28 DF, p-value: 2.98e-13 


你 可 以 看 到 Pr (>1Itl) 栏 中 ， 马 力 与 车 重 的 交互 项 是 显著 的 ， 这 意味 着 什么 呢 ? 若 两 个 预测 
变量 的 交互 项 显著 ,说 明 响 应 变量 与 其 中 一 个 预测 变量 的 关系 依赖 于 男 外 一 个 预测 变量 的 水 平 。 
因此 此 例 说 明 ， 每 加 仓 汽油 行驶 英里 数 与 汽车 马力 的 关系 依 和 车 重 不 同 而 不 同 。 

预测 mpg 的 模型 为 mpg=49.81 -0.12xhp-8.22xwt+0.03xhpxwt。 为 更 好 地 理解 交互 项 ， 你 可 以 
赋 给 wt 不 同 的 值 ， 并 简化 等 式 。 例 如 ， 可 以 试 试 wt 的 均值 (3.2 )， 少 于 均值 一 个 标准 差 和 多 于 均 
值 一 个 标准 差 的 值 (分 别 是 22 和 4.2 )。 若 wt=2.2， 则 等 式 可 以 化 简 为 
impg =49.81-0.12xhp-8.22x(2.2) + 0.03xhpx(2.2) =31.41-0.06xhp ; 若 wt=3.2 ， 则 变 成 了 
mpg=23.37-0.03xhp; 若 wt=4 .2, 则 等 式 为 mpg=15.33-0.003xhp。 你 将 发 现 , 随 着 车 重 增加 (2.2、 
3.2、4.2 )，hp 每 增加 一 个 单位 引起 的 mpg 预 期 改变 却 在 减少 ( 0.06、0.03 、0.003 )。 

通过 effects 包 中 的 effect () 图 数 ， 你 可 以 用 图 形 展示 交互 项 的 结果 。 格 式 为 : 


plot (effect (term, mod,, xlevels), multiline=TRUE) 
term 即 模型 要 画 的 项 ,， mod 为 通过 1m() 拟 合 的 模型 ，xlevels 是 一 个 列表 , 指定 变量 要 设 定 
的 常量 值 ，multiline=TRUE 选 项 表示 添加 相应 直线 。 对 于 上 例 ， 即 : 


library (effects) 
plot (effect ("hp:wt", fit,, list(wt=c(2.2,3.2,4.2))), multiline=TRUE) 


结果 展示 在 图 8-5 中 。 

从 图 中 可 以 很 清晰 地 看 出 ， 随 着 车 重 的 增加 ， 马 力 与 每 加 仑 汽油 行驶 英里 数 的 关系 减弱 了 。 
当 wt=4 .2 时， 直线 几乎 是 水 平 的 ， 表 明 随 着 hp 的 增加 ，mpg 不 会 发 生 改 变 。 

然而 , 拟 合 模型 只 不 过 是 分 析 的 第 一 步 , 一 旦 拟 合 了 回归 模型 ,在 信心 十 是 地 进行 推 其 之 前 ， 
必须 对 方法 中 暗含 的 统计 假设 进行 检验 。 这 正 是 下 节 的 主题 。 
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图 8-5 hpxwt 的 交互 项 


8.3 回归 诊断 














图 形 。 图 形 展示 了 wt 三 种 值 时 mpg 和 hp 的 关系 


在 上 一 节 中 ， 你 使 用 1m() 函数 来 拟 合 OLS 回 归 模 型 ， 通 过 summary () 函数 获取 模型 参数 和 
相关 统计 量 。 但 是 , 没有 任何 输出 告诉 你 模型 是 否 合适 ,你 对 模型 参数 推断 的 信心 依赖 于 它 在 多 
大 程度 上 满足 OLS 模 型 统计 假设 。 虽然 在 代码 清单 8-4 中 summary () 函数 对 模型 有 了 整体 的 描述 ， 














但 是 它 没有 提供 关于 模型 在 多 大 程度 上 满足 统计 假设 的 任何 信息 。 


为 什么 这 很 重要 ?因为 数据 的 无 规律 怕 

















E 或 者 错误 设 定 了 预测 变量 与 响应 变量 的 关系 , 都 将 至 


使 你 的 模型 产生 巨大 的 偏差 。 一 方面 , 你 可 能 得 出 某 个 预测 变量 与 响应 变量 无 关 的 结论 , 但 事实 








上 它们 是 相关 的 ; 另 一 方面 ,情况 可 能 恰好 相反 。 当 你 的 模型 应 用 到 真实 世界 中 时 ， 预 测 效果 可 


能 很 差 ， 误 差 显 车 。 














现在 让 我 们 通过 confint () 函数 的 输出 来 看 看 8.2.4 节 中 states 多 元 回归 的 问题 。 








> states <- as.Qata.frame(state.x77[,cC("Muraer"， 


> confint (fit) 


oe 
(Intercept) -6.55e+00 
Population 4.14e-05 
TI1literacy 2.38e+00 
Income -1.31e-03 
Frost -1.97e-02 





9 
0 
D3 
0 
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ell, 


97 5, 
*021318 
.000406 
903874 
.001441 
.020830 


"Population", 


iteracy", "Income", "Frost")]) 
> fit <- lm(Murder ~ Population + Illiteracy + Income + Frost, data=states) 


结果 表明 ,文盲 率 改变 1%， 谋杀 率 就 在 95% 的 置信 区 间 [2.38, 5.90] 中 变化 。 另 外 ， 因 为 Frost 
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的 置信 区 间 包 含 0， 所 以 可 以 得 出 结论 : 当 其 他 变量 不 变 时 ， 温 度 的 改变 与 谋杀 率 无 关 。 不 过 ， 
你 对 这 些 结果 的 信念 ， 都 只 建立 在 你 的 数据 满足 统计 假设 的 前 提 之 上 。 

回归 诊断 技术 向 你 提供 了 评价 回归 模型 适用 性 的 必要 工具 , 它 能 帮助 发 现 并 纠正 问题 ,首先 ， 
我 们 探讨 使 用 R 基 础 包 中 函数 的 标准 方法 ,然后 再 看 看 car 包 中 改进 了 的 新 方法 。 


8.3.1 标准 方法 


R 基 础 安装 中 提供 了 大 量 检 验 回归 分 析 中 统计 假设 的 方法 。 最 常见 的 方法 就 是 对 lm () 函数 
返回 的 对 象 使 用 plot () 函数 ,可 以 生成 评价 模型 拟 合 情况 的 四 幅 图 形 。 下 面 是 简单 线性 回归 的 
例子 : 

fit <- lm(weight ~ height, data=women) 


par (mfrow=c (2,2)) 
plot (fit) 


生成 图 形 见 图 8-6。 par (mfrow=c (2,2) ) 将 plot () 函数 绘制 的 四 幅 图 形 组合 在 一 个 大 的 2x2 
的 图 中 。par () 函数 的 介绍 可 参见 第 3 章 。 
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图 8-6 ”体重 对 身高 回归 的 诊断 图 
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为 理解 这 些 图 形 ， 我 们 来 回顾 一 下 OLS 回 归 的 统计 假设 。 
口 正 态 性 ” 当 预 测 变量 值 固定 时 ， 因 变量 成 正 态 分 布 ， 则 残 差 值 也 应 该 是 一 个 均值 为 0 的 正 
态 分 布 。“ 正 态 Q-Q 图 ”( NormalQ-Q, 右上 ) 是 在 正 态 分 布 对 应 的 值 下 ,标准 化 残 差 的 概 
率 图 。 若 满足 正 态 假设 ， 那 么 图 上 的 点 应 该 落 在 呈 45 度 角 的 直线 上 ; 若 不 是 如 此 ， 那 么 
就 违反 了 正 态 性 的 假设 。 
口 独立 性 ”你 无 法 从 这 些 图 中 分 辨 出 因 变 量 值 是 否 相 互 独立 ， 只 能 从 收集 的 数据 中 来 验证 。 
上 面 的 例子 中 , 没有 任何 先 验 的 理由 去 相信 一 位 女性 的 体重 会 影响 男 外 一 位 女性 的 体重 。 
假若 你 发 现 数据 是 从 一 个 家 庭 抽 样 得 来 的 ， 那 么 可 能 必须 要 调整 模型 独立 性 的 假设 。 
口 线性 若 因 变量 与 自 变 量 线 性 相关 ， 那 么 残 差 值 与 预测 ( 拟 合 ) 值 就 没有 任何 系统 关联 。 
换 句 话说 ， 除 了 白 噪声 ， 模 型 应 该 包含 数据 中 所 有 的 系统 方差 。 在 “ 残 差 图 与 拟 合 图 ” 
(Residuals vs Fitted， 左 上 ) 中 可 以 清楚 地 看 到 一 个 曲线 关系 ， 这 暗示 着 你 可 能 需要 对 回 
归 模 型 加 上 一 个 二 次 项 。 
口 同方 差 性 ” 若 满 足 不 变 方差 假设 ， 那 么 在 “位 置 尺度 图 ”( Scale-Location Graph， 左 下 ) 
中 ,水平线 周围 的 点 应 该 随机 分 布 。 该 图 似乎 满足 此 假设 。 
最 后 一 幅 “ 残 差 与 杠杆 图 ”( Residuals vs Leverage， 右 下 ) 提供 了 你 可 能 关注 的 单个 观测 点 
的 信息 。 从 图 形 可 以 鉴别 出 离 群 点 、 高 杠杆 值 点 和 强 影响 点 。 下 面 来 详细 介绍 。 
口 一 个 观测 点 是 离 群 点 ， 表 明 拟 合 回归 模型 对 其 预测 效果 不 佳 (产生 了 巨大 的 或 正 或 负 的 
残 差 )。 
口 一 个 观测 点 有 很 高 的 杠杆 值 ， 表 明 它 是 一 个 异常 的 预测 变量 值 的 组 合 。 也 就 是 说 ， 在 预 
测 变量 空间 中 ， 它 是 一 个 离 群 点 。 因 变量 值 不 参与 计算 一 个 观测 点 的 杠杆 值 。 
口 一 个 观测 点 是 强 影响 点 (influential observation )， 表 明 它 对 模型 参数 的 估计 产生 的 影响 过 
大 ， 非 常 不 成 比例 。 强 影响 点 可 以 通过 Cook 距 离 即 Cook’s D 统 计量 来 鉴别 。 

不 过 老实 说 , 我 觉得 残 差 一 杠杆 图 的 可 读 性 差 而 且 不 够 实用 。 在 接 下 来 的 章节 中 , 你 将 会 看 
到 对 这 一 信息 更 好 的 呈现 方法 。 

为 了 章节 的 完整 性 ， 让 我 们 再 看 看 二 次 拟 合 的 诊断 图 。 代 码 为 : 

fit2 <- lm(weight ~ height + I(height^2), data=women) 


par (mfrow=c (2,2)) 
plot (fit2) 


结果 见 图 8-7。 

这 第 二 组 图 表明 多 项 式 回归 拟 合 效果 比较 理想 ， 基 本 符合 了 线性 假设 、 残 差 正 态 性 〈 除 了 
观测 点 13 ) 和 同方 差 性 〈 残 差 方 差 不 变 )。 观 测 点 15 看 起 来 像 是 强 影响 点 (根据 是 它 有 较 大 的 
Cook 距 离 值 )， 删 除 它 将 会 影响 参数 的 估计 。 事 实 上 ， 删 除 观测 点 13 和 15， 模 型 会 拟 合 得 会 
好 。 使 用 : 

newfit <- lm(weight~ height + I(height^2), data=women[-c(13,15),]) 


即 可 拟 合 日 除 点 后 的 模型 。 但 是 对 于 删除 数据 ， 要 非常 小 心 ， 因 为 本 应 是 你 的 模型 去 匹配 数据 ， 
而 不 是 反 过 来 。 
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图 8-7 ”体重 对 身高 和 身高 平方 的 回归 诊断 图 
最 后 ， 我 们 再 应 用 这 个 基本 的 方法 ,来 看 看 states 的 多 元 回归 问题 。 


states <- as.data.frame(state.x77[,c("Murder", "Population", 
"Illiteracy", "Income", "Frost")]) 

fit <- lm(Murder ~ Population + Illiteracy + Income + Frost, data=states) 

par(mfrow=C {2.2)) 











BLOC(FfEtY) 
结果 展示 在 图 8-8 中 。 正 如 从 图 上 看 到 的 ， 除 去 Nevada 一 个 离 群 点 ， 模 型 假设 得 到 了 很 好 的 
满足 。 




















虽然 这 些 标准 的 诊断 图 形 很 有 用 ， 但 是 R 中 还 有 更 好 的 工具 可 用 ， 相 比 plot (fit) 方 法 , 我 
更 推荐 它们 。 
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图 8-8 


8.3.2 ”改进 的 方法 
car 包 提供 了 大 量 函 数 ， 大 大 增强 了 拟 合 和 评价 回归 模型 的 能 力 ( 参见 表 8-4 )。 





谋杀 率 对 州 各 
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表 8-4 (car 包 中 的 ) 回归 诊断 实用 函数 
函 数 目 的 
qqPlot () 分 位 数 比 较 图 
durbinWatsonTest () 对 误差 自 相 关 性 做 Durbin-Watson 检验 
crPplots!() 成 分 与 残 差 医 
ncvTest () 对 非 恒 定 的 误差 方差 做 得 分 检验 
spreadLevelPlot () 分 散 水 平 检验 
outlierTest () Bonferroni 离 群 点 检验 
avPlots () 添加 的 变量 图 形 
inluencePlot () 回归 影响 图 
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( 续 ) 
函数 目 的 
scatterplot () 增强 的 散 点 医 
scatterplotMatrix() 增强 的 散 点 图 和 矩 阵 
vif() 方差 膨胀 因子 








值得 注意 的 是 ，car 包 的 2.x 版 本 相对 1.x 版 本 作 了 许多 改变 , 包括 函数 的 名 字 和 用 法 。 本 章 基 


于 2.x 版 本 。 





男 外 ，gvima 包 提供 了 对 所 有 线性 模型 假设 进行 检验 的 方法 。 作 为 比较 ,我 们 将 把 它们 应 用 


到 之 前 的 多 元 回归 例子 中 。 
1. 正 态 性 


与 基础 包 中 的 plot () 函数 相 比 ,a 


qPlot () 函数 提供 





了 更 为 精确 的 正 态 假设 检验 方法 , 它 画 


出 了 在 n-p-1 个 自由 度 的 t 分 布下 的 学 生化 残 差 ( studentized residual， 也 称 学 生化 删除 残 差 或 折 过 





























化 残 差 ) 图 形 ， 其 中 n 是 样本 大 小 ，p 是 回归 参数 的 数目 


1i 





brary (car) 


(包括 截 距 项 )。 代 码 如 下 : 


states <- as.data.frame(state.x77[,c("Murder", "Population", 
"TILliteéeracy"™;, "INcome"™, "Frost")]) 

fit <- lm(Murder ~ Population + Illiteracy + Income + Frost, data=states) 

qqPlot (fit, labels=row.names (states), id.method="identify", 


simulate=TRUE, main="Q-Q Plot") 


qqPlot () 函数 生成 的 概率 图 见 图 8-9。iq.method 





待 图 形 绘制 后 ,用 鼠标 单 击 图 形 内 的 点 ， 将 会 标注 函数 中 lalbbels 选 项 的 设 定 值 。 敲 击 Esc 键 , 从 








"identify" 选项 能 够 交互 式 绘图 一 一 
图 





形 下 拉 菜 单 中 选择 Stop, 或 者 在 图 形 上 右 击 , 都 将 关闭 这 种 交互 模式 。 此 处 , 我 已 经 鉴定 出 了 Nevada 











异常 。 当 simulate=TRUE 时 ，959% 的 置信 











Q-Q Plot 


区 间 将 会 用 参数 自助 法 〈 自助 法 可 参见 第 12 章 ) 生成 。 





Studentized Residuals(fit) 





Nevada o 








t Quantiles 


图 8-9 学 生化 残 差 的 Q-Q 
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除了 Nevada, 所 有 的 点 都 离 直 线 很 近 , 并 都 落 在 置信 区 间 内 , 这 表明 正 态 性 假设 符合 得 很 好 。 
但 是 你 也 必须 关注 Nevada， 它 有 一 个 很 大 的 正 残 差 值 ( 真实 值 - 预测 值 )， 表 明 模 型 低估 了 该 州 
的 谋杀 率 。 特 别 地 : 


> states["Nevada",] 




















Murder Population Illiteracy Income Frost 
Nevada LTE.5 590 Qi 5149 188 


> fitted(fit) ["Nevada"] 


Nevada 
.878958 


[9] 


residuals (fit) ["Nevada"] 


V 


Nevada 
.621042 


-J 


rstudent (fit) ["Nevada"] 


V 


Nevada 
.542929 


可 以 看 到 ，Nevada 的 谋杀 率 是 11.5%， 而 模型 预测 的 谋杀 率 为 3.9%。 

你 应 该 会 提出 这 样 的 问题 “为 什么 Nevada 的 谋杀 率 会 比 根据 人 口 、 收 入 、 文 盲 率 和 温度 预 
测 所 得 的 谋杀 率 高 呢 ? ”没有 看 过 电影 《 盗 亦 有 道 》( Goodfellas ) 的 你 愿意 猜 一 猜 吗 ? 

可 视 化 误差 还 有 其 他 方法 ， 比 如 使 用 代码 清单 8-6 中 的 代码 。residplot () 函数 生成 学 生化 
残 差 柱状 图 ( 即 直方 图 )， 并 添加 正 态 曲线 、 核 密度 曲线 和 轴 须 图 。 它 不 需要 加 载 car 包 。 


代码 清单 8-6 ”绘制 学 生化 残 差 图 的 函数 
residplot <- function(fit, nbreaks=10) { 
z <- rstudent (fit) 
hist(z, breaks=nbreaks, freq=FALSE, 
xlab="Studentized Residual", 
main="Distribution of Errors") 
rug(jitter(z), col="brown") 
curve (dnorm(x, mean=mean(z), sd=sd(z)), 
add=TRUE, col="blue", lwd=2) 
lines (density(z) $x, density(z)S$y, 
col="red", lwd=2, lty=2) 
legend ("topright", 
legend = c( "Normal Curve", "Kernel Density Curve"), 
lty=1:2, col=c("blue","red"), cex=.7) 


(LOD 




















} 
residplot (fit) 


结果 如 图 8-10 所 示 。 
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图 8-10 ”用 resiqdplot () 函数 绘制 的 学 生化 残 差 分 布 图 


正如 你 所 看 到 的 ， 除 了 一 个 很 明显 的 离 群 点 ， 误 差 很 好 地 服从 了 正 态 分 布 。 虽 然 Q-Q 图 已 经 
蕴藏 了 很 多 信息 , 但 我 总 觉得 从 一 个 柱状 图 或 者 密度 图 测量 分 布 的 斜 度 比 使 用 概率 图 更 容易 。 因 
此 为 何不 一 起 使 用 这 两 幅 图 呢 ? 

2. 误差 的 独立 性 

之 前 章节 提 过 ,判断 因 变 量 值 ( 或 残 差 ) 是 否 相互 独立 , 最 好 的 方法 是 依据 收集 数据 方式 的 
先 验 知识 。 例如 ,时 间 序 列 数据 通常 呈现 自 相 关 性 一 一 相隔 时 间 越 近 的 观测 相关 性 大 于 相隔 越 远 
的 观测 。car 包 提供 了 一 个 可 做 Durbin-Watson 检 验 的 函数 ,能够 检测 误差 的 序列 相关 性 。 在 多 元 
回归 中 ,使 用 下 面 的 代码 可 以 做 Durbin-Watson 检 验 : 


> durbinWatsonTest (fit) 
lag Autocorrelation D-W Statistic p-value 
1 -0.201 2.32 0.282 
Alternative hypothesis: rho != 0 


Pp 值 不 显著 (p=0.282 ) 说 明 无 自 相 关 性 ， 误 差 项 之 间 独 立 。 沾 后 项 (1ag=1 ) 表明 数据 集中 
每 个 数据 都 是 与 其 后 一 个 数据 进行 比较 的 。 该 检验 适用 于 时 间 独 立 的 数据 ,对 于 非 聚 集 型 的 数据 
并 不 适用 。 注 意 ，durbinWatsonTest () 函数 使 用 自助 法 (参见 第 12 章 ) 来 导出 p 值 。 如 果 添 加 
了 选项 simulate=TRUE， 则 每 次 运行 测试 时 获得 的 结果 都 将 略 有 不 同 。 

3. 线性 

通过 成 分 残 差 图 (componentplus residual plot ) 也 称 偏 残 差 图 (partial residual plot )， 你 可 以 
看 看 因 变 量 与 自 变量 之 间 是 否 呈 非 线 性 关系 , 也 可 以 看 看 是 否 有 不 同 于 已 设 定 线性 模型 的 系统 偏 
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差 ， 图 形 可 用 car 包 中 的 crPlots () 限 数 绘制 。 

创建 变量 X 的 成 分 残 差 图 ， 需 要 绘制 点 e +( 训 +BxX,+…+BxX,) vs.X,。 其 中 残 差 项 :是 
基于 所 有 模型 的 ，i=1…n。 每 幅 图 都 会 给 出 (名 +x 于 ,+…+B xX,)vs.X 的 直线 。 平 滑 拟 合 曲 
线 (loess ) 将 在 第 11 章 介绍 。 代 码 如 下 : 


> library (car) 
> crPplots (fit) 


结果 如 图 8-11 所 示 。 车 图 形 存 在 非 线性 , 则 说 明 你 可 能 对 预测 变量 的 函数 形式 建 模 不 够 充分 ， 
那么 就 需要 添加 一 些 曲 线 成 分 ， 比 如 多 项 式 项 ， 或 对 一 个 或 多 个 变量 进行 变换 ( 如 用 log (Xx) 代 
蔡 X)， 或 用 其 他 回归 变 体 形式 而 不 是 线性 回归 。 本 章 稍 后 会 介绍 变量 变换 。 


Component + Residual Plots 
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图 8-11 谋杀 率 对 州 各 因素 回归 的 成 分 残 差 图 


从 图 8-11 中 可 以 看 出 ， 成 分 残 差 图 证 实 了 你 的 线性 假设 ,线性 模型 形式 对 该 数据 集 看 似 是 合 
适 的 。 

4. 同方 差 性 

car 包 提供 了 两 个 有 用 的 函数 ， 可 以 判断 误差 方差 是 否 恒定 。ncvTest () 函数 生成 一 个 计 分 
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检验 , 零 假 设 为 误差 方差 不 变 , 备 择 假设 为 误差 方差 随 着 拟 合 值 水 平 的 变化 而 变化 。 知 检验 显著 ， 
则 说 明 存 在 异 方差 性 ( 误差 方差 不 恒定 )。 

spreadLevelPlot () 函数 创建 一 个 添加 了 最 佳 拟 合 曲线 的 散 点 图 ， 展 示 标 准 化 残 差 绝对 值 
与 拟 合 值 的 关系 。 函 数 应 用 如 代码 清单 8-7 所 示 。 


代码 清单 8-7 检验 同方 差 性 
> library (car) 
> ncvTest (fit) 








Non-constant Variance Score Test 
Variance formula: ~ fitted.values 
Chisquare=1.7 下 = D019 


> spreadLevelPlot (fit) 


Suggested power transformation: 1.2 


可 以 看 到 ， 计 分 检验 不 显著 (p=0.19 ), 说 明 满 足 方差 不 变 假 设 。 你 还 可 以 通过 分 布 水 平 图 
(图 8-12 ) 看 到 这 一 点 ， 其 中 的 点 在 水 平 的 最 佳 拟 合 曲 线 周围 呈 水 平 随 机 分 布 。 若 违反 了 该 假设 ， 
你 将 会 看 到 一 个 非 水 平 的 曲线 。 代 码 结果 建议 寡 次 变换 ( suggested power transformation ) 的 含义 
是 ， 经 过 p 次 震 〈 丈 ) 变换 ， 非 恒定 的 误差 方差 将 会 平稳 。 例 如 ， 若 图 形 显示 出 了 非 水 平 趋势 ， 
建议 索 次 转换 为 0.5， 在 回归 等 式 中 用 V7 代替 了 Y， 可 能 会 使 模型 满足 同方 差 性 。 若 建议 寡 次 为 0， 
则 使 用 对 数 变换 。 对 于 当前 例子 ， 异 方差 性 很 不 明显 ， 因 此 建议 寡 次 接近 1 (不 需要 进行 变换 )。 



























































Spread-Level Plot for fit 
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图 8-12 ”评估 不 变 方差 的 分 布 水 平 图 
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8.3.3 ”线性 模型 假设 的 综合 验证 


最 后 ， 让 我 们 一 起 学 习 gvlma 包 中 的 gvlma () 函数 。gvlma () 函数 由 Pena 和 Slate ( 2006 ) 编 
写 ， 能 对 线性 模型 假设 进行 综合 验证 ， 同 时 还 能 做 偏 斜 度 、 峰 度 和 蜡 方差 性 的 评价 。 换 句 话 说， 
它 给 模型 假设 提供 了 一 个 单独 的 综合 检验 (通过 /不 通过 )。 代码 清单 8-8 是 对 states 数 据 的 检验 。 


代码 清单 8-8 ”线性 模型 假设 的 综合 检验 
> library (gvlma) 
> gvmodel <- gvlma (fit) 
> summary (gvmodel) 






































ASSESSMENT OF THE LINEAR MODEL ASSUMPTIONS 
USING THE GLOBAL TEST ON 4 DEGREES-OF-FREEDOM: 
Level of Significance= 0.05 


Call: 
gvima (x=fit) 


Value p-value Decision 
Global Stat a 0.597 Assumptions acceptable. 
Skewness ded 0.215 Assumptions acceptable. 
Kurtosis 0.638 0.425 Assumptions acceptable. 
Link Function QL115 0.734 Assumptions acceptable. 
Heteroscedasticity 0.482 0.487 Assumptions acceptable. 


从 输出 项 (Global stat 中 的 文字 栏 ) 我 们 可 以 看 到 数据 满足 OLS 回 归 模 型 所 有 的 统计 假设 
(p=0.597 )。 若 Decision 下 的 文字 表明 违反 了 假设 条 件 〈 比如 p<0.05 )， 你 可 以 使 用 前 几 节 讨论 
的 方法 来 判断 哪些 假设 没有 被 满足 。 


8.3.4 多 重 共 线性 


在 即将 结束 回归 诊断 这 一 节 前 , 让 我 们 来 看 一 个 比较 重要 的 问题 , 它 与 统计 假设 没有 直接 关 
联 ， 但 是 对 于 解释 多 元 回归 的 结果 非常 重要 。 

假设 你 正在 进行 一 项 握力 研究 ， 自 变量 包括 DOB ( Date Of Birth， 出 生日 期 ) 和 年 龄 。 你 用 
握力 对 DOB 和 年 龄 进行 回归 , F 检 验 显著 , p<0.001。 但 是 当 你 观察 DOB 和 年 龄 的 回归 系数 时 ， 却 
发 现 它们 都 不 显著 ( 也 就 是 说 无 法 证 明 它 们 与 握力 相关 )。 到 底 发 生 了 什么 呢 ? 

原因 是 DOB 与 年 龄 在 四 舍 五 人 后 相关 性 极 大 。 回归 系数 测量 的 是 当 其 他 预测 变量 不 变 时 , 某 
个 预测 变量 对 啊 应 变量 的 影响 。 那 么 此 处 就 相当 于 假定 年 龄 不 变 ， 然 后 测量 握力 与 年 龄 的 关系 ， 
这 种 问题 就 称 作 多 重 共 线性 (multicollinearity )。 它 会 导致 模型 参数 的 置信 区 间 过 大 , 使 单个 系数 
解释 起 来 很 困难 。 

多 重 共 线性 可 用 统计 量 VIF ( Variance Inflation Factor， 方 差 膨胀 因子 ) 进行 检测 。VIF 的 平 
方 根 表 示 变 量 回归 参数 的 置信 区 间 能 膨胀 为 与 模型 无 关 的 预测 变量 的 程度 ( 因此 而 得 名 )。car 
包 中 的 vif () 函数 提供 VIF 值 。 一般 原则 下 ，Vvif >2 就 表明 存在 多 重 共 线性 问题 。 代 码 参见 代码 
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清单 8-9， 结 果 表明 预测 变量 不 存在 多 重 共 线 性 问题 。 
代码 清单 8-9 检测 多 重 共 线性 


> library (car) 


7 
Population Illiteracy Income Frost 
业 < 汉 2.2 和 总 公测 


> sqrt (vif (fit)) > 2 # problem? 


Population Illiteracy Income Frost 
FALSE FALSE FALSE FALSE 


8.4 异常 观测 值 


一 个 全 面 的 回归 分 析 要 和 窗 盖 对 异常 值 的 分 析 ，, 包括 离 群 点 、 高 杜 杆 值 点 和 强 影响 点 。 这 些 数 
据点 需要 更 深入 的 研究 , 因为 它们 在 一 定 程 度 上 与 其 他 观测 点 不 同 , 可 能 对 结果 产生 较 大 的 负面 
影响 。 下 面 我 们 依次 学 习 这 些 异 常 值 。 


8.4.1 ” 离 群 点 


离 群 点 是 指 那些 模型 预测 效果 不 佳 的 观测 点 。 它 们 通常 有 很 大 的 、 或 正 或 负 的 残 差 ( 了- 六)。 
正 的 残 差 说 明 模 型 低估 了 响应 值 ， 负 的 残 差 则 说 明 高 估 了 响应 值 。 

你 已 经 学 习 过 一 种 鉴别 离 群 点 的 方法 : 图 8-9 的 Q-Q 图 , 落 在 置信 区 间 带 外 的 点 即 可 被 认为 是 
离 群 点 。 另 外 一 个 粗糙 的 判断 准则 : 标准 化 残 差 值 大 于 2 或 者 小 于 -2 的 点 可 能 是 离 群 点 ， 需 要 特 
别 关注 。 

car 包 也 提供 了 一 种 离 群 点 的 统计 检验 方法 。 out1lierTest () 函数 可 以 求 得 最 大 标准 化 残 差 
绝对 值 Bonferroni 调 整 后 的 p 值 : 


> library (car) 
> outlierTest (fit) 


























rstudent unadjusted p-value Bonferonni p 
Nevada 3:5 0.00095 0.048 


此 处 ,你 可 以 看 到 Nevada 被 判定 为 离 群 点 (p=0.048 )。 注意, 该 函数 只 是 根据 单个 最 大 (或 
正 或 负 ) 残 差 值 的 显著 性 来 判断 是 否 有 离 群 点 。 若 不 显著 , 则 说 明 数 据 集中 没有 离 群 点 ; 若 显著 ， 
则 你 必须 删除 该 离 群 点 ， 然 后 再 检验 是 否 还 有 其 他 离 群 点 存在 。 











8.4.2 ”高 杠杆 值 点 


高 杠杆 值 观测 点 ， 即 与 其 他 预测 变量 有 关 的 离 群 点 。 换 句 话 说, 它们 是 由 许多 异常 的 预测 变 
量 值 组 合 起 来 的 ， 与 响应 变量 值 没有 关系 。 
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高 杠杆 值 的 观测 点 可 通过 帽子 统计 量 ( hat statistic ) 判断 。 对 于 一 个 给 定 的 数据 集 ， 帽 子 均 
值 为 pn， 其 中 p 是 模型 估计 的 参数 数目 (包含 截 距 项 ),，n 是 样本 量 。 一 般 来 说 ， 若 观测 点 的 帽子 
值 大 于 帽子 均值 的 2 或 3 倍 ， 就 可 以 认定 为 高 杠杆 值 点 。 下 面 代码 画 出 了 帽子 值 的 分 布 : 

hat.plot <- function(fit) { 


p <- length(coefficients (fit)) 
n <- length (fitted (fit)) 


























plot (hatvalues (fit), 
abline (h=c(2,3)*p/n, 


main="Index Plot of Hat Values") 
COL="red".;” LtyY=2) 


identify(l1:n, 


hatvalues (fit), 


names (hatvalues (fit))) 




















} 
hat .plot (fit) 
结果 见 图 8-13。 
Index Plot of Hat Values 
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图 8-13 ”用 帽子 值 来 判定 高 杠杆 值 点 




















水 平 线 标注 的 即 帽 子 均值 2 倍 和 3 倍 的 位 置 。 定 位 函数 ( locator function ) 能 以 交互 模式 绘 网 : 
单 击 感 兴趣 的 点 ， 然 后 进行 标注 ， 停 止 交 互 时 ， 用 户 可 按 Esc 键 退出 ， 或 从 图 形 下 拉 菜 单 中 选择 
Stop ， 或 直接 右 击 图 形 。 

此 图 中 ,可 以 看 到 Alaska 和 California 非 常 异常 ， 查 看 它们 的 预测 变量 值 ， 与 其 他 48 个 州 进行 
比较 发 现 : Alaska 收 入 比 其 他 州 高 得 多 , 而 人 口 和 温度 却 很 低 ; California 人 口 比 其 他 州 府 多 得 多 ， 
但 收入 和 温度 也 很 高 。 

高 杠杆 值 点 可 能 是 强 影响 点 ， 也 可 能 不 是 ， 这 要 看 它们 是 否 是 离 群 点 。 
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8.4.3” 强 影响 点 


强 影响 点 ， 即 对 模型 参数 估计 值 影响 有 些 比 例 失衡 的 点 。 例 如 , 若 移 除 模型 的 一 个 观测 点 时 
模型 会 发 生 巨 大 的 改变 ， 那 么 你 就 需要 检测 一 下 数据 中 是 否 存在 强 影响 点 了 。 

有 两 种 方法 可 以 检测 强 影响 点 : Cook 距 离 ， 或 称 D 统 计量 ， 以 及 变量 添加 图 (added variable 
plot )。 一般 来 说 ，Cook’s D 值 大 于 4/(n-k-1)， 则 表明 它 是 强 影 响 点 ， 其 中 n 为 样本 量 大 小 ，k 是 预 
测 变 量 数目 。 可 通过 如 下 代码 绘制 Cook’s D 图 形 ( 图 8-14 ): 

cutoff <- 4/(nrow(states)-length(fit$coefficients)-2) 


plot (fit, which=4, cook.levels=cutoff) 
abline (h=cutoff, lty=2, col="red") 


























Cook’s distance 




















Alaska 
J 
8 3] 
吕 
名 
已 
区 站 Nevada 
8 3 ] 
oO 
Hawai 
El | | | Hi | | i 
T T I T T T 
0 10 20 30 40 50 
Obs. number 
Im(Murder ~ Population + llliteracy + Income + Frost) 
图 8-14 ”鉴别 强 影响 点 的 Cook"s DD 图 
通过 图 形 可 以 判断 Alaska、Hawaii 和 Nevada 是 强 影 响 点 。 知 删除 这 些 点 ， 将 会 导致 回归 模型 





截 距 项 和 斜率 发 生 显著 变化 。 注 意 ， 虽 然 该 图 对 搜寻 强 影响 点 很 有 用 ， 但 我 逐渐 发 现 以 1 为 分 割 
点 比 4/(n-f-1) 更 具 一 般 性 。 若 设 定 D=1 为 判别 标准 ， 则 数据 集中 没有 点 看 起 来 像 是 强 影响 点 。 
Cook’sD 图 有 助 于 鉴别 强 影响 点 , 但 是 并 不 提供 关于 这 些 点 如 何 影响 模型 的 信息 。 变 量 添加 
图 弥补 了 这 个 缺陷 。 对 于 一 个 响应 变量 和 k 个 预测 变量 ， 你 可 以 如 下 图 创建 个 变量 添加 图 。 
所 谓 变量 添加 图， 即 对 于 每 个 预测 变量 已， 绘制 怠 在 其 他 大 1 个 预测 变量 上 回归 的 残 差 值 相 
对 于 响应 变量 在 其 他 大 1 个 预测 变量 上 回归 的 残 差 值 的 关系 图 。car 包 中 的 avPlots () 函数 可 提 
共 变 量 添加 图 : 


library (car) 
avPlots (fit, ask=FALSE, id.method="identify") 
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结果 如 图 8-15 所 示 。 图 形 一 次 生成 一 个 ,用 户 可 以 通过 单 击 点 来 判断 强 影响 点 。 按 下 Esc， 
或 从 图 形 菜单 中 选择 Stop， 或 右 击 , 便 可 移动 到 下 一 个 图 形 。 我 已 在 左下 图 中 鉴别 出 Alaska 为 强 
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图 8-15 ”评估 强 影响 点 影响 效果 的 变量 添加 图 


中 的 直线 表示 相应 预测 变量 的 实际 回归 系数 。 你 可 以 想象 删除 某 些 强 影响 点 后 直线 的 改 
变 ， 以 此 来 估计 它 的 影响 效果 。 例 如 ， 来 看 左下 角 的 图 (“Murder | others”vs.“Income | others”)， 
若 删除 点 Alaska， 直 线 将 往 负 向 移动 。 事 实 上 ， 删 除 Alaska，Income 的 回归 系数 将 会 从 0.000 06 
变 为 -0.000 85。 

当然 ， 利 用 car 包 中 的 influencePlot () 函数 ， 你 还 可 以 将 离 群 点 、 杠 杆 值 和 强 影响 点 的 
言 息 整 合 到 一 幅 图 形 中 : 

library (car) 


influencePlot (fit, id.method="identify", main="Influence Plot", 
sub="Circle size is proportional to Cook's distance") 


8-16 反 映 出 Nevada 和 Rhode Island 是 离 群 点 ，New York、California、Hawaii 和 Washington 
有 高 杠杆 值 ，Nevada、Alaska 和 Hawaii 为 强 影响 点 。 
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Influence Plot 


Studentized Residuals 


si 
下 区 
1New York 





0.1 0.2 0.3 0.4 


Hat-Values 
Circle size is proportial to Cook's Distance 


图 8-16 ”影响 图 。 纵 坐标 超过 +2 或 小 于 -2 的 州 可 被 认为 是 离 群 点 ， 水 平 轴 超 过 0.2 或 0.3 
的 州 有 高 杠杆 值 (通常 为 预测 值 的 组 合 ) 。 圆 阐 大 小 与 影响 成 比例 ,圆圈 很 大 
的 点 可 能 是 对 模型 参数 的 估计 造成 的 不 成 比例 影响 的 强 影 响 点 



































8.5 改进 措施 


我 们 已 经 花费 了 不 少 篇 幅 来 学 习 回 归 诊 断 ， 你 可 能 会 问 :“ 如 果 发 现 了 问题 ， 那 么 能 做 些 什 
么 呢 ? ”有 四 种 方法 可 以 处 理 违 背 回 归 假设 的 问题 ; 
口 删除 观测 点 ; 
口 变量 变换 ; 
口 添加 或 删除 变量 ; 
口 使 用 其 他 回归 方法 。 
下 面 让 我 们 依次 学 习 。 





























8.5.1 删除 观测 点 


删除 离 群 点 通常 可 以 提高 数据 集 对 于 正 态 假设 的 拟 合 度 , 而 强 影响 点 会 干扰 结果 , 通常 也 会 
被 删除 。 删除 最 大 的 离 群 点 或 者 强 影响 点 后 , 模型 需要 重新 拟 合 。 若 离 群 点 或 强 影 响 点 仍然 存在 ， 
重复 以 上 过 程 直 至 获得 比较 满意 的 拟 合 。 

我 对 删除 观测 点 持 谨慎 态度 。 若 是 因为 数据 记录 错误 ,或 是 没有 遵守 规程 ， 或 是 受 试 对 象 误 
解 了 指导 说 明 ， 这 种 情况 下 的 点 可 以 判断 为 离 群 点 ， 删 除 它 们 是 十 分 合理 的 。 
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不 过 在 其 他 情况 下 , 所 收集 数据 中 的 异常 点 可 能 是 最 有 趣 的 东西 。 发 掘 为 何 该 观测 点 不 同 于 
其 他 点 ， 有 助 于 你 更 深刻 地 理解 研究 的 主题 ， 或 者 发 现 其 他 你 可 能 没有 想 过 的 问题 。 我 们 一 些 最 
伟大 的 进步 正 是 源 自 于 意外 地 发 现 了 那些 不 符合 我 们 先 验 认 知 的 东西 ( 抱歉 ， 我 说 得 夸张 了 )。 





























8.5.2 ”变量 变换 


当 模 型 不 符合 正 态 性 、 线 性 或 者 同方 差 性 假设 时 , 一 个 或 多 个 变量 的 变换 通常 可 以 改善 或 调 
整 模 型 效果 。 变换 多 用 了 替代 丈 4 的 常见 值 和 解释 见 表 8-5。 若 7 是 比例 数 , 通常 使 用 logit 变 换 [1n 
(Y/1-Y)]o 






































表 8-5 ”常见 的 变换 
4 -2 -1 -0.5 0 0.5 1 2 
变换 1 UY LVY log(7) V7 无 Y 











当 模 型 违反 正 态 假设 时 , 通常 可 以 对 响应 变量 尝试 某 种 变换 。car 包 中 的 powerTransform () 
函数 通过 7 的 最 大 似 然 估 计 来 正 态 化 变量 对。 代码 清单 8-10 是 对 数据 states 的 应 用 。 


代码 清单 8-10 ”Box-Cox 正 态 变 换 
> library (car) 
> summary (powerTransform(states$Murder)) 
bcPower Transformation to Normality 
Est.Power Std.Err. Wald Lower Bound Wald Upper Bound 
states$Murder Os6 Qi 2:6 0.088 1 















































Likelihood ratio tests about transformation parameters 
LRT df pval 

LR test, lambda=(0) 5.7 1 0.017 

LR test, lambda=(1) 2.1 1 0.145 


结果 表明 , 你 可 以 用 Murder"” 来 正 态 化 变量 Murder。 由 于 0.6 很 接近 0.5, 你 可 以 尝试 用 平方 
根 变 换 来 提高 模型 正 态 性 的 符合 程度 。 但 在 本 例 中 ， 厂 1 的 假设 也 无 法 拒绝 (p=0.145 )， 因 此 没 
有 了 强 有 力 的 证 据 表明 本 例 需 要 变量 变换 ， 这 与 图 8-9 的 Q-Q 图 结果 一 致 。 

当 违 反 了 线性 假设 时 ， 对 预测 变量 进行 变换 常常 会 比较 有 用 。car 包 中 的 boxTidwel1 () 郴 
数 通过 获得 预测 变量 寡 数 的 最 大 似 然 估计 来 改善 线性 关系 。 下 面 的 例子 用 州 的 人 口 和 文 育 率 来 预 
测 谋 杀 率 ， 对 模型 进行 了 Box-Tidwell 变 换 : 
































> library (car) 
> boxTidwell (Murder~Population+Illiteracy,data=states) 


Score Statistic p-value MLE of lambda 
Population =0%32 YY 0.87 
Illiteracy O062 0.54 L336 


结果 显示 ,使 用 变换 Population”” 和 I11iteracy' 尼 能 够 大 大 改善 线性 关系 。 但 是 对 
Population (p=0.75 ) 和 Illiteracy (p=0.54) 的 计 分 检验 又 表明 变量 并 不 需要 变换 。 这 些 结 
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有 果 与 图 8-11 的 成 分 残 差 图 是 一 致 的 。 

响应 变量 变换 还 能 改善 异 方差 性 ( 误差 方差 非 恒定 )。 在 代码 清单 8-7 中 ， 你 可 以 看 到 car 包 
中 spreadLevelPlot () 函数 提供 的 容 次 变换 应 用 , 不 过 ，states 例 子 满足 了 方差 不 变性 , 不 需 
要 进行 变量 变换 。 





谨慎 对 待 变量 变换 
统计 学 中 流传 着 一 个 很 老 的 笑话 : 如 果 你 不 能 证 明 A， 那 就 证 明 B， 假装 它 就 是 A。( 对 于 
统计 学 家 来 说 ， 这 很 滑稽 好 笑 。) 此 处 引申 的 意思 是 ， 如 果 你 变换 了 变量 ， 你 的 解释 必须 基于 
变换 后 的 变量 ， 而 不 是 初始 变量 。 如 果 变 换 得 有 意义 ， 比 如 收入 的 对 数 变 换 、 距 离 的 逆 变 换 ， 
解释 起 来 就 会 容易 得 多 。 但 是 若 变换 得 没有 意义 ， 你 就 应 该 避免 这 样 做 。 比 如 ， 你 怎样 解释 自 
杀 意 念 的 频率 与 抑郁 程度 的 立方 根 间 的 关系 呢 ? 


8.5.3 增删 变量 


改变 模型 的 变量 将 会 影响 模型 的 拟 合 度 。 有时, 添加 一 个 重要 变量 可 以 解决 我 们 已 经 讨论 过 
的 许多 问题 ， 删 除 一 个 元 余 变 量 也 能 达到 同样 的 效果 。 
删除 变量 在 处 理 多 重 共 线性 时 是 一 种 非常 重要 的 方法 。 如 果 你 仅仅 是 做 预测 ， 那 么 多 重 共 
线性 并 不 构成 问题 ， 但 是 如 果 还 要 对 每 个 预测 变量 进行 解释 ， 那 么 就 必须 解决 这 个 问题 。 最 常 
见 的 方法 就 是 删除 某 个 存在 多 重 共 线性 的 变量 ( 某 个 变量 wy >2 )。 另 外 一 个 可 用 的 方法 便 是 
岭 回 归 一 一 多 元 回归 的 变 体 ， 专 门 用 来 处 理 多 重 共 线性 问题 。 


8.5.4 ”尝试 其 他 方法 


正如 刚才 提 和 到 的 ， 处 理 多 重 共 线性 的 一 种 方法 是 拟 合 一 种 不 同类 型 的 模型 (本 例 中 是 岭 回 
归 ),。 其 实 ， 如 果 存 在 离 群 点 和 /或 强 影 响 点 ,可 以 使 用 稳健 回归 模型 符 代 OLS 回 归 。 如 果 违 背 了 
正 态 性 假设 ， 可 以 使 用 非 参数 回归 模型 。 如 果 存 在 显著 的 非 线性 ， 能 尝试 非 线性 回归 模型 。 如 
果 违 背 了 误差 独立 性 假设 ， 还 能 用 那些 专门 研究 误差 结构 的 模型 ， 比 如 时 间 序 列 模型 或 者 多 层 
次 回归 模型 。 最 后 ， 你 还 能 转向 广泛 应 用 的 广义 线性 模型 ， 它 能 适用 于 许多 OLS 回 归 假 设 不 成 
立 的 情况 。 

在 第 13 章 中 ,我 们 将 会 介绍 其 中 一 些 方法 。 至 于 什么 时 候 需 要 提高 OLS 回 归 拟 合 度 ， 什 么 时 
候 需要 换 一 种 方法 , 这些 判断 是 很 复杂 的 ， 需 要 依靠 你 对 主题 知识 的 理解 ， 判 断 出 哪个 模型 提供 
最 佳 结果 。 

既然 提 到 最 佳 结 果 ， 现 在 我 们 就 先 讨论 一 下 回归 模型 中 的 预测 变量 选择 问题 。 
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8.6 选择 “最 佳 ” 的 回归 模型 


尝试 获取 一 个 回归 方程 时 , 实际 上 你 就 面 对 着 从 众多 可 能 的 模型 中 做 选择 的 问题 。 是 不 是 所 
有 的 变量 都 要 包括 ? 还 是 去 掉 那 个 对 预测 贡献 不 显著 的 变量 ?是否 需要 添加 多 项 式 项 和 /或 交互 
项 来 提高 拟 合 度 ? 最 终 回归 模型 的 选择 总 是 会 涉及 预测 精度 ( 模型 尽 可 能 地 拟 合 数据 ) 与 模型 简 
洁 度 (一 个 简单 旦 能 复制 的 模型 ) 的 调和 问题 。 如 果 有 两 个 几乎 相同 预测 精度 的 模型 ， 你 肯定 嘉 
欢 简单 的 那个 。 本 节 讨 论 的 问题 ， 就 是 如 何在 候选 模型 中 进行 筛选 。 注 意 ,“ 最 佳 ”是 打 了 引号 
的 ， 因 为 没有 评价 的 唯一 标准 ， 最 终 的 决定 需要 调查 者 的 评判 。( 把 它 看 作 工作 保障 吧 。) 
















































































8.6.1 模型 比较 


用 基础 安装 中 的 anova () 函数 可 以 比较 两 个 垦 套 模型 的 拟 合 优 度 。 所谓 议 套 模型 即 它 的 一 
些 项 完全 包含 在 另 一 个 模型 中 。 在 states 的 多 元 回归 模型 中 ， 我 们 发 现 mcome 和 Frost 的 回归 系 
数 不 显 车 , 此 时 你 可 以 检验 不 含 这 两 个 变量 的 模型 与 包含 这 两 项 的 模型 预测 效果 是 否 一 样 好 ( 见 
代码 清单 8-11 )。 


代码 清单 8-11 用 anova() 函数 比较 
> states <- as.data.frame(state.x77[,c("Murder", "Population", 
"Tl1literacy". “Income"™ vErOSt))]) 
> fitl <- lm(Murder ~ Population + Illiteracy + Income + Frost, 
data=states) 
> fit2 <- lm(Murder ~ Population + Illiteracy, data=states) 
> anova (fit2, fit1) 

















Analysis of Variance Table 


Model 1: Murder ~ Population + Illiteracy 
Model 2: Murder ~ Population + Illiteracy + Income + Frost 


Res .Df RSS Df Sum of Sqa F Pr(>F) 
a 47 289.246 
2 45"2895L67， 0.079 0.0061 0.994 


此 处 , 模型 1 舱 套 在 模型 2 中 。anova () 函数 同时 还 对 是 否 应 该 添加 Income 和 Frost 到 线性 模型 
中 进行 了 检验 。 由 于 检验 不 显著 (p=0.994 )， 我 们 可 以 得 出 结论 : 不 需要 将 这 两 个 变量 添加 到 线 
性 模型 中 ， 可 以 将 它们 从 模型 中 删除 。 

AIC ( Akaike Information Criterion ， 赤 池 信 息 准 则 ) 也 可 以 用 来 比较 模型 ， 它 考虑 了 模型 的 
统计 拟 合 度 以 及 用 来 拟 合 的 参数 数目 。AIC 值 较 小 的 模型 要 优先 选择 ， 它 说 明 模 型 用 较 少 的 参数 
获得 了 足够 的 拟 合 度 。 该 准则 可 用 AIc ( ) 函数 实现 ( 见 代码 清单 8-12 )。 


代码 清单 8-12 ”用 AIC 来 比较 模型 
> fitl <- lm(Murder ~ Population + Illiteracy + Income + Frost, 
data=states) 
> fit2 <- lm(Murder ~ Population + Illiteracy, data=states) 
> AIC(fit1,fit2) 
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df AIC 
fitl1 6 241.6429 
fit2 237 6565 


此 处 AIC 值 表明 没有 Income 和 Frost 的 模型 更 佳 。 注意,，ANOVA 需 要 网 套 模 型 ， 而 AIC 方 法 不 
需要 。 

比较 两 模型 相对 来 说 更 为 直接 , 但 如 果 有 4 个 、10 个 或 者 100 个 可 能 的 模型 该 怎么 办 呢 ? 这 便 
是 下 节 的 主题 。 














8.6.2 ”变量 选择 


从 大 量 候选 变量 中 选择 最 终 的 预测 变量 有 以 下 两 种 流行 的 方法 : 逐步 回归 法 ( stepwise 
method ) 和 全 子 集 回归 (all-subsets regression )。 

1. 逐步 回归 

逐步 回归 中 ， 模 型 会 一 次 添加 或 者 删除 一 个 变量 ， 直 到 达到 某 个 判 停 准 则 为 止 。 例 如 ， 向 前 
逐步 回归 (forward stepwise regression ) 每 次 添加 一 个 预测 变量 到 模型 中 ， 直 到 添加 变量 不 会 使 
模型 有 所 改进 为 止 。 向 后 逐步 回归 (backward stepwise regression ) 从 模型 包含 所 有 预测 变量 开始 ， 
一 次 删除 一 个 变量 直到 会 降低 模型 质量 为 止 。 而 向 前 向 后 逐步 回归 ( stepwise stepwise regression ， 
通常 称 作 逐步 回归 ， 以 避免 听 起 来 太 宛 长 )， 结 合 了 向 前 逐步 回归 和 向 后 逐步 回归 的 方法 ， 变 量 
每 次 进入 一 个 , 但 是 每 一 步 中 ,变量 都 会 被 重新 评价 ， 对 模型 没有 贡献 的 变量 将 会 被 删除 ， 预 测 
变量 可 能 会 被 添加 、 删 除 好 几 次 ， 直 到 获得 最 优 模型 为 止 。 

逐步 回归 法 的 实现 依据 增删 变量 的 准则 不 同 而 不 同 。MAss 包 中 的 stepAIc () 图 数 可 以 实现 
逐步 回归 模型 ( 向 前 、 向 后 和 向 前 向 后 )， 依 据 的 是 精确 AIC 准 则 。 代 码 清单 8-13 中 ,我 们 应 用 的 
是 向 后 回归 。 


代码 清单 8-13 ”向 后 回归 
> library (MASS ) 
> states <- as.data.frame(state.x77[,c("Murder", "Population", 
"Tlliteracy", "Income", "Frost")]) 










































































> fit <- lm(Murder ~ Population + Illiteracy + Income + Frost, 
data=states) 
> stepAIC(fit, direction="backward") 


Starte ,AIC=97., 35 
Murder ~ Population + Illiteracy + Income + Frost 


Df Sum of Sa RSS AIC 
= EOSE 业 QO02 33905190 ‘9543 
- Income 1 0:06 289..22 95.76 
<none> 2 9 ORS 
- Population 1 39.24 328.41 102.11 


- Illiteracy 1 144.26 433.43 115.99 
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Step: AIC=95.75 
Murder ~ Population + Illiteracy + Income 


Df Sum of Sq ROS AIC 
- Income 1 0.06 289.25 9376 
<none> 2892419- ‘95 
- Population 1 43.66 332.85 100.78 
- Illiteracy 1 2367520 52050038 1236L 


Step: AIC=93.76 
Murder ~ Population + Illiteracy 


Df Sum of Sqa RSS AIC 
<none> 289:525. 93576 
- Population 1 8552 33776 99532 
- Illiteracy 1 299%65, 5.8889 T2731 


Gal 
lm(formula=Murder ~ Population + Illiteracy, data=states) 


Coefficients: 
(Intercept) Population Illiteracy 
1.6515497 0.0002242 4.0807366 


开始 时 模型 包含 4 个 ( 全 部 ) 预测 变量 ， 然 后 每 一 步 中 ，AIC 列 提供 了 删除 一 个 行 中 变量 后 
模型 的 AIC 值 ， <none> 中 的 AIC 值 表示 没有 变量 被 删除 时 模型 的 AIC。 第 一 步 ，Frost 被 删除 ,AIC 
从 97.75 降 低 到 95.75; 第 二 步 ，Income 被 删除 ，AIC 继 续 下 降 ， 成 为 93.76。 然 后 再 删除 变量 将 会 
增加 AIC， 因 此 终止 选择 过 程 。 

逐步 回归 法 其 实 存在 争议 ,虽然 它 可 能 会 找到 一 个 好 的 模型 , 但 是 不 能 保证 模型 就 是 最 佳 模 
型 ， 因 为 不 是 每 一 个 可 能 的 模型 都 被 评价 了 。 为 克服 这 个 限制 ， 便 有 了 全 子 集 回 归 法 。 

2. 全 子 集 回 归 

顾名思义 ,全 子 集 回 归 是 指 所 有 可 能 的 模型 都 会 被 检验 。 分 析 员 可 以 选择 展示 所 有 可 能 的 结 
果 , 也 可 以 展示 7 个 不 同 子 集 大 小 ( 一个、 两 个 或 多 个 预测 变量 ) 的 最 佳 模型 。 例 如 , 若 nbest=2， 
先 展示 两 个 最 佳 的 单 预测 变量 模型 ， 然 后 展示 两 个 最 佳 的 双 预 测 变量 模型 ， 以 此 类 推 ， 直 到 包含 
所 有 的 预测 变量 。 

全 子 集 回 归 可 用 leaps 包 中 的 regsubsets () 函数 实现 。 
Mallows Cp 统 计量 等 准则 来 选择 “最 佳 ”模型 。 

了 平方 含 义 是 预测 变量 解释 响应 变量 的 程度 ;调整 R 平 方 与 之 类 似 ， 但 考虑 了 模型 的 参数 数 
目 。R 平 方 总 会 随 着 变量 数目 的 增加 而 增加 。 当 与 样本 量 相 比 ， 预 测 变 量 数目 很 大 时 ， 容 易 导致 
过 拟 合 。R 平 方 很 可 能 会 丢失 数据 的 偶然 变异 信息 , 而 调整 R 平 方 则 提供 了 更 为 真实 的 R 平 方 估计 。 
另外 ，Mallows Cp 统 计量 也 用 来 作为 逐步 回归 的 判 停 规则 。 广 泛 研究 表明 ， 对 于 一 个 好 的 模型 ， 
它 的 Cp 统计 量 非常 接近 于 模型 的 参数 数目 ( 包括 截 距 项 )。 

在 代码 清单 8-14 中 ， 我 们 对 states 数 据 进 行 了 全 子 集 回归 。 结 果 可 用 leaps 包 中 的 plot 
函数 绘制 (如 图 8-17 所 示 )， 或 者 用 car 包 中 的 subsets () 函数 绘制 ( 如 图 8-18 所 示 )。 
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尔 能 通过 RR 平方 、 调 整 R 平 方 或 
































192 第 8 章 回归 








代码 清单 8-14 ”全 子 集 回归 
library (leaps) 
states <- as.data.frame(state.x77[,c("Murder", "Population", 
"Illiteracy", "Income", "Frost")]) 


Jeaps <-regsubsets(Murder ~ Population + Illiteracy + JIncome + 
Frost, data=states, nbest=4) 
plot (leaps, scale="adjr2") 


library (car) 
subsets(leaps, statistic="cp", 

main="Cp Plot for All Subsets Regression") 
abline(1,1,1lty=2,col="red") 
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图 8-17 基于 调整 R 平 方 ， 不 同 子 集 大 小 的 四 个 最 佳 模型 


初 看 图 8-17 可 能 比较 费解 。 第 一 行 中 ( 图 底部 开始 ), 可 以 看 到 含 intercept( 截 距 项 ) 和 Income 
的 模型 调整 RR 平方 为 0.33, 含 intercept 和 Population 的 模型 调整 平方 为 0.1。 跳 至 第 12 行 , 你 会 看 到 
含 intercept、Population、Illiteracy 和 Income 的 模型 调整 R 平 方 值 为 0.54, 而 仅 含 intercept、Population 
和 Illiteracy 的 模型 调整 R 平 方 为 0.55。 此 处 ， 你 会 发 现 仿 预测 变量 越 少 的 模型 调整 R 平 方 越 大 ( 对 
于 非 调整 的 R 平 方 , 这 是 不 可 能 的 )。 图 形 表 明 ， 双 预测 变量 模型 ( Population 和 Illiteracy ) 是 最 佳 
模型 。 
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Cp Plot for All Subsets Regression 


50 


P: Population 
ll: Mlliteracy 


In: Income 
F: Frost 


Statistic: cp 
30 40 


20 


10 





Subset Size 
图 8-18 ”基于 Mallows Cp 统计 量 ， 不 同 子 集 大 小 的 四 个 最 佳 模型 


在 图 8-18 中 ， 你 会 看 到 对 于 不 同 子 集 大 小 ， 基 于 Mallows Cp 统 计量 的 四 个 最 佳 模型 。 越 好 的 
模型 离 截 距 项 和 和 斜率 均 为 1 的 直线 越 近 。 图 形 表 明 ， 你 可 以 选择 这 几 个 模型 ， 其 余 可 能 的 模型 都 
可 以 不 予 考虑 : 含 Population 和 Illiteracy 的 双 变 量 模 型 ; 含 Population 、Illiteracy 和 Frost 的 三 变量 模 
型 ， 或 Population 、llliteracy 和 Income 的 三 变量 模型 ( 它们 在 图 形 上 重 于 了 ， 不 易 分 辨 ); 含 
Population 、llliteracy、Income 和 Frost 的 四 变量 模型 。 

大 部 分 情况 中 , 全 子 集 回 归 要 优 于 逐步 回归 ， 因 为 考虑 了 更 多 模型 。 但 是 ， 当 有 大 量 预测 变 
量 时 ， 全 子 集 回归 会 很 慢 。 一 般 来 说 ， 变 量 自动 选择 应 该 被 看 做 是 对 模型 选择 的 一 种 辅助 方法 ， 
而 不 是 直接 方法 。 拟 合 效果 佳 而 没有 意义 的 模型 对 你 毫 无 帮助 ,主题 背景 知识 的 理解 才能 最 终 指 
引 你 获得 理想 的 模型 。 


8.7 ”深层 次 分 析 
让 我 们 来 结束 本 章 对 于 回归 模型 的 讨论 ， 介 绍 评价 模型 泛 化 能 力 和 变量 相对 重要 性 的 方法 。 
8.7.1 交叉 验证 


上 一 节 我 们 学 习 了 为 回归 方程 选择 变量 的 方法 。 若 你 最 初 的 目标 只 是 描述 性 分 析 , 那么 只 需 
要 做 回归 模型 的 选择 和 和 解释。 但 当 目 标 是 预测 时 ， 你 肯定 会 问 :“ 这 个 方程 在 真实 世界 中 表现 如 
何 呢 ? ” 提 这 样 的 问题 也 是 无 可 厚 非 的 。 

从 定义 来 看 ， 回 归 方法 本 就 是 用 来 从 一 堆 数据 中 获取 最 优 模型 参数 。 对 于 OLS 回 归 ， 通 过 使 
得 预测 误差 〈 残 差 ) 平方 和 最 小 和 对 响应 变量 的 解释 度 (了 平方 ) 最 大 ， 可 获得 模型 参数 。 由 于 
等 式 只 是 最 优化 已 给 出 的 数据 ， 所 以 在 新 数据 集 上 表现 并 不 一 定好 。 
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在 本 章 开始 , 我 们 讨论 了 一 个 例子 , 生理 学 家 想 通 过 个 体 锻炼 的 时 间 和 强度 、 年 龄 、 性 别 与 




















BMI 来 预测 消耗 的 卡路里 数 。 如 果 用 OLS 回 归 方 程 来 拟 合 该 数据 ， 那 么 仅仅 是 对 一 个 特殊 的 观测 

















集 最 大 化 R 平 方 ,， 但 是 研究 员 想 用 该 等 式 预测 一 般 个 体 消耗 的 卡路里 数 ， 而 不 是 原始 数据 。 你 知 






































道 该 等 式 对 于 新 观测 样本 表现 并 不 一 定好 , 但 是 预测 的 损失 会 是 多 少 呢 ? 你 可 能 并 不 知道 。 通 过 


交叉 验证 法 ， 我 们 便 可 以 评价 回归 方程 的 泛 化 能 





所 谓 交 叉 验证 ， 即 将 一 定 比 例 的 数据 挑选 出 来 作为 训练 样本 ,另外 的 样本 作 保留 样本 ， 先 在 


训练 样本 上 获取 回归 方程 ， 然 后 在 保留 样本 上 做 预测 。 由 于 保留 样本 不 涉及 模型 参数 的 选择 ,该 


样本 可 获得 比 新 数据 更 为 精确 的 佑 计 。 














在 k 重 交 又 验证 中 ,样本 被 分 为 个 子 样本 ,轮流 将 -1 个 子 样本 组 合作 为 训练 集 ， 另外 1 个 子 





样本 作为 保留 集 。 这 样 会 获得 k 个 预测 方程 , 记录 k 个 保留 样本 的 预测 表现 结果 , 然后 求 其 平均 值 。 
( 当 n 是 观测 总 数目 ， 且 为 x 时 ， 该 方法 又 称 作 刀 切 法 ，jackknifing。 ) 








bootstrap 包 中 的 crossval() 函数 可 以 实现 k 重 交叉 验证。 在 代码 清单 8-15 中 ， 


shrinkage () 函数 对 模型 的 R 平 方 统计 量 做 了 kK 重 交 又 验证 。 
代码 清单 8-15 了 平方 的 k 重 交叉 验证 


shrinkage <- function(fit, k=10)f{ 
require (bootstrap) 


theta.fit <- function(x,y) {lsfit (x,y)} 
theta.predict <- function(fit,x) {cbind(1,x)%*%fitS$coef} 


x <- fit$model[,2:ncol (fit$model)] 
y <- fit$model[,1] 


results <- crossval (x, y, theta.fit, theta.predict, ngroup=k) 
r2 <- cor(ly, fits$fitted.values)’2 
roev TRY Tesultssev. fit)S2 


cat ("Original R-square =", r2, "\n") 
cat (k, "Fold Cross-Validated R-square =", r2cv, "\n") 
Cat (Change ST T2728, "Yn") 


} 
代码 清单 8-15 中 定义 了 shrinkage() 函数 , 创建 了 一 个 包含 预测 变量 和 预测 值 的 矩阵 , 可 获 


得 初始 R 平 方 以 及 交叉 验证 的 R 平 方 。( 第 12 章 会 更 详细 地 讨论 自助 法 。) 























对 states 数 据 所 有 预测 变量 进行 回归 ， 然 后 再 用 shrinkage () 函数 做 10 重 交叉 验证 : 


> States <- as.data.frame(state.x77[,c("Murder", "Population", 
"Illiteracy", "Income", "Frost")]) 

> fit <- lm(Murder ~ Population + Income + Illiteracy + Frost, data=states) 

> shrinkage (fit) 








Original R-square=0.567 
10 Fold Cross-Validated R-square=0.4481 
Change=0.1188 


可 以 看 到 ,基于 初始 样本 的 R 平 方 (0.567 ) 过 于 乐观 了 。 对 新 数据 更 好 的 方差 解释 率 估计 是 
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交叉 验证 后 的 R 平 方 (0.448 )。( 注意 , 观测 被 随机 分 配 到 k 个 群 组 中 , 因此 每 次 运行 shrinkage () 
函数 ， 得 到 的 结果 都 会 有 少许 不 同 。) 

通过 选择 有 更 好 泛 化 能 力 的 模型 ， 还 可 以 用 交叉 验证 来 挑选 变量 。 例 如 ， 含 两 个 预测 变量 
(Population 和 I11iteracy ) 的 模型 ， 比 全 变量 模型 R 平 方 减少 得 更 少 (0.03 vs. 0.12 ): 








> fit2 <- lm(Murder ~ Population + Illiteracy,data=states) 
> shrinkage (fit2) 


Original R-square=0.5668327 
10 Fold Cross-Validated R-square=0.5346871 
Change=0.03214554 


这 使 得 双 预 测 变 量 模 型 显得 更 有 吸引 力 。 
其 他 情况 类 似 , 基于 大 训练 样本 的 回归 模型 和 更 接近 于 感 兴趣 分 布 的 回归 模型 ， 其 交叉 验证 
效果 更 好 。R 平 方 减 少 得 越 少 ， 预 测 则 越 精确 。 


8.7.2 ”相对 重要 性 


本 章 我 们 一 直 都 有 一 个 疑问 :“ 哪 些 变量 对 预测 有 用 呢 ? ”但 你 内 心 真正 感 兴趣 的 其 实 是 : 
“哪些 变量 对 预测 最 为 重要 ? ”潜台词 就 是 想 根据 相对 重要 性 对 预测 变量 进行 排序 。 这 个 问题 很 
有 实际 用 处 。 例 如 , 假设 你 能 对 团队 组 织 成 功 所 需 的 领导 特质 依据 相对 重要 性 进行 排序 , 那么 就 
可 以 帮助 管理 者 关注 他 们 最 需要 改进 的 行为 。 

若 预 测 变量 不 相关 , 过 程 就 相对 简单 得 多 , 你 可 以 根据 预测 变量 与 响应 变量 的 相关 系数 来 进 
行 排序 。 但 大 部 分 情况 中 ， 预 测 变 量 之 间 有 一 定 相 关 性 ， 这 就 使 得 评价 变 得 复杂 很 多 。 

评价 预测 变量 相对 重要 性 的 方法 一 直 在 涌现 。 最 简单 的 莫 过 于 比较 标准 化 的 回归 系数 , 它 表 
示 当 其 他 预测 变量 不 变 时 , 该 预测 变量 一 个 标准 差 的 变化 可 引起 的 响应 变量 的 预期 变化 ( 以 标准 
差 单 位 度量 )。 在 进行 回归 分 析 前 ， 可 用 scale () 函数 将 数据 标准 化 为 均值 为 0、 标 准 差 为 1 的 数 
据 集 ， 这 样 用 R 回 归 即 可 获得 标准 化 的 回归 系数 。( 注意 ，scale () 函数 返回 的 是 一 个 矩阵 ， 而 
lm() 函数 要 求 一 个 数据 框 ， 你 需要 用 一 个 中 间 步 又 来 转换 一 下 。) 代码 和 多 元 回归 的 结果 如 下 : 


> states <- as.data.frame(state.x77[,c("Murder", "Population", 
"Tliiteracy, “ineomer,, “Erost")]) 

> zstates <- as.data.frame(scale(states)) 

> zfit <- lm(Murder~Population + Income + Illiteracy + Frost, data=zstates) 

> coef (zfit) 
































(Intercept) Population Income Illiteracy Frost 
-9.406e-17 2:705e=:01 1.072e-02 6.840e-01 8.185e-03 


此 处 可 以 看 到 , 当 其 他 因素 不 变 时 , 文盲 率 一 个 标准 差 的 变化 将 增加 0.68 个 标准 差 的 谋杀 率 。 
根据 标准 化 的 回归 系数 ， 我 们 可 认为 Iliteracy 是 最 重要 的 预测 变量 ， 而 Frost 是 最 不 重要 的 。 

还 有 许多 其 他 方法 可 定量 分 析 相 对 重要 性 。 比 如 ， 可 以 将 相对 重要 性 看 作 每 个 预测 变量 ( 本 
身 或 与 其 他 预测 变量 组 合 ) 对 R 平 方 的 贡献 。Ulrike Gr5omping 写 的 relaimpo 包 涵盖 了 一 些 相 对 重 
要 性 的 评价 方法 (http://prof.beuth-hochschule.de/groemping/relaimpo/ )。 
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相对 权重 ( relative weight ) 是 一 种 比较 有 前 景 的 新 方法 ， 它 是 对 所 有 可 能 子 模型 添加 一 个 预 
测 变量 引起 的 了 平方 平均 增加 量 的 一 个 近似 值 (Johnson ,2004; Johnson & Lebreton ,2004; LeBreton 
人 Tonidandel，2008 )。 代 码 清单 8-16 提 供 了 一 个 生成 相对 权重 的 函数 。 


代码 清单 8-16 relweignts () 郴 数 ， 计 算 预 测 变量 的 相对 权重 
relweights <- function(fit,...){ 

R <- cor(fits$model) 

nvar <- ncol (R) 

rxx <- RI2:nvar, 2:nvar] 

rxy <- RI2:nvar, 1] 

svd <- eigen (rxx) 

evec <- svd$vectors 

ev <- svd$values 

delta <- diag (sqrt (ev)) 

lambda <- evec %*% delta %*% t (evec) 

lambdasgq <- lambda ^2 

beta <- solve(lambda) %*% rxy 

rsquare <- colSums (beta ^ 2) 

rawwgt <- lambdasqg %*% beta ^ 2 

import <- (rawwgt / rsquare) * 100 

import <- as.data.frame (import) 

row.names (import) <- names (fits$model[2:nvarl]) 

names (import) <- "Weights" 

import <- import[order (import),1, drop=FALSE] 

dotchart (importsWeights, labels=row.names (import), 
xlab="% of R-Square", pch=19, 
main="Relative Importance of Predictor Variables", 
sub=paste("Total R-Square=", round(rsquare, digits=3)), 

。 
return (Import ) 


} 


注意 代码 清单 8-16 中 的 代码 改编 自 Johnson 博 士 提 供 的 SPSS 程 序 。 可 以 参考 Johnson ( 2000， 
Multivariate Behavioral Research，35，1-19 ) 了 解 如 何 推导 相对 权重 。 


现 将 代码 清单 8-17 中 的 relweights () 函数 应 用 到 states 数 据 集 。 
代码 清单 8-17 zelweignts () 函数 的 应 用 


> states <- as.data.frame(state.x77[,c("Murder", "Population", 
"Illiteracy", "Income", "Frost")]) 

> fit <- lm(Murder ~ Population + Illiteracy + Income + Frost, data=states) 

> relweights (fit, col="blue") 


Weights 
Income 5..49 
Population 站、 了 7 训 
Frost 20379 


Illiteracy S900 


通过 图 8-19 可 以 看 到 各 个 预测 变量 对 模型 方差 的 解释 程度 ( R 平 方 =0.567 )，llliteracy 解 释 了 
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59% 的 了 R 平 方 ，Frost 解 释 了 20.79%， 等 等 。 根 据 相 对 权重 法 ，IHliteracy 有 最 大 的 相对 重要 性 ， 余 
下 依次 是 Frost、Population 和 Income。 


Relative Importance of Predictor Variables 





llliteracy @ 


Frost @ 


Population @ 


Income 加 





% of R-Square 
Total R-Square= 0.567 





图 8-19 states 多 元 回归 中 各 变量 相对 权重 的 点 图 。 较 大 的 权重 表明 这 些 预 测 变量 相 
对 而 言 更 加 重要 。 例 如 ，Illiteracy 解 释 了 59% 的 R 平 方 (0.567 ) ，Income 解 释 
了 5.49%。 因 此 在 这 个 模型 中 Illiteracy 比 Income 相 对 更 重要 


相对 重要 性 的 测量 ( 特别 是 相对 权重 方法 ) 有 广泛 的 应 用 ， 它 比 标准 化 回归 系数 更 为 直观 ， 
我 期 待 将 来 有 更 多 的 人 使 用 它 。 






































8.8 小结 


在 统计 中 , 回归 分 析 是 许多 方法 的 一 个 总 称 。 相信 你 已 经 看 到 , 它 是 一 个 交互 性 很 强 的 方法 ， 
包括 拟 合 模型 、 检 验 统计 假设 、 修 正 数据 和 模型 ， 以 及 为 达到 最 终结 果 的 再 拟 合 等 过 程 。 从 很 多 
角度 来 看 ， 获 得 模型 的 最 终结 果 不 仅 是 一 种 科学 ， 也 是 一 种 艺术 和 技巧 。 

由 于 回归 分 析 是 一 个 有 很 多 步骤 的 过 程 ， 所 以 本 章 相 对 较 长 。 我 们 先 讨论 了 如 何 拟 合 OLS 回 
归 模 型 .如何 使 用 回归 诊断 评估 数据 是 否 符 合 统 计 假设 ,以 及 一 些 修 正 数据 使 其 符合 假设 的 方法 。 
然后 , 我 们 介绍 了 一 些 从 众多 可 能 模型 中 选 出 最 终 回归 模型 的 途径 , 学 习 了 如 何 评价 模型 在 新 样 
本 上 的 表现 。 最 后 ， 我 们 解决 了 变量 重要 性 这 个 恼人 的 问题 : 鉴别 哪个 变量 对 预测 最 为 重要 。 

在 本 章 的 每 个 例子 中 ,预测 变量 都 是 定量 的 。 但 是 ,并 没有 任何 限制 不 允许 使 用 类 别 型 变量 
作为 预测 变量 。 使 用 诸如 性 别 、 人 处 理 方式 或 者 生产 过 程 这 类 类 别 型 变量 ,可 以 鉴别 出 响应 变量 或 
结果 变量 的 组 间 差 别 。 这 便 是 我 们 下 章 的 主题 。 






















































































方差 分 析 








本 章 内 容 

口 R 中 基本 的 实验 设计 建 模 
口 拟 合并 解释 方差 分 析 模 型 
口 检验 模型 假设 








第 7 章 中 , 我 们 已 经 看 到 了 通过 量化 的 预测 变量 来 预测 量化 的 响应 变量 的 回归 模型 。 这 并 不 
意味 着 我 们 不 能 将 名 义 型 或 有 序 型 因子 作为 预测 变量 进行 建 模 。 当 包含 的 因子 是 解释 变量 时 ， 
我 们 关注 的 重点 通常 会 从 预测 转 回 组 别 差 异 的 分 析 ， 这 种 分 析 法 称 作 方差 分 析 ( ANOVA )。 
ANOVA 在 各 种 实验 和 准 实验 设计 的 分 析 中 都 有 广泛 应 用 。 本 章 将 介绍 用 于 常见 研究 设计 分 析 的 
了 有 函数。 

首先 我 们 将 回顾 实验 设计 中 的 术语 , 随后 讨论 R 拟 合 ANOVA 模 型 的 方法 , 然后 再 通过 示例 对 
常见 的 实验 设计 分 析 进 行 冰释 。 在 这 些 示 例 中 ， 你 将 遇 到 许多 有 趣 的 实验 ， 比 如 治疗 焦虑 证 ， 降 
低 胆 固 醇 水 平 ， 帮 助 怀孕 小 鼠 生 下 胖 宝 宝 ， 确 保 豚 鼠 的 牙齿 长 长 ,促进 植物 呼吸 ， 学 习 如 何 摆 放 
货架 等 。 

对 于 这 些 例子 ， 除 了 R 中 的 基础 包 ， 你 还 需 加 载 car、gplots、HH、rrcov、multicomp、 
effects、MASS 和 mvoutlier 包 。 运 行 后 面 的 代码 示例 时 ， 请 确保 已 安装 以 上 这 些 包 。 


9.1 术语 速成 


实验 设计 和 方差 分 析 都 有 自己 相应 的 语言 。 在 讨论 实验 设计 分 析 前 , 我 们 先 快速 回顾 一 些 重 
要 的 术语 ， 并 通过 对 一 系列 复杂 度 逐 步 增加 的 实验 设计 的 学 习 ， 引 入 模型 最 核心 的 思想 。 

以 焦虑 症 治疗 为 例 , 现 有 两 种 治疗 方案 : 认 知 行为 疗法 ( CBT ) 和 了 眼 动 脱 敏 再 加 工法 ( EMDR )。 
我 们 招募 10 位 焦虑 症 患 者 作为 志愿 者 , 随机 分 配 一 半 的 人 接受 为 期 五 周 的 CBT, 另外 一 半 接 受 为 
期 五 周 的 EMDR， 设 计 方 案 如 表 9-1 所 示 。 在 治疗 结束 时 ， 要 求 每 位 患者 都 填写 状态 特质 焦虑 问 
卷 ( STAI)， 也 就 是 一 份 焦虑 度 测量 的 上 自我 评测 报告 。 
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表 9-1 单 因 素 组 间 方 差分 析 








治疗 方案 
CBT EMDR 
sl s6 
S2 S7 
S3 S8 
S4 S9 
s5 S10 


在 这 个 实验 设计 中 ， 治 疗 方案 是 两 水 平 (CBT、EMDR ) 的 组 间 因 子 。 之 所 以 称 其 为 组 间 因 
子 ， 是 因为 每 位 患者 都 仅 被 分 配 到 一 个 组 别 中 ， 没 有 患者 同时 接受 CBT 和 EMDR。 表 中 字母 s 代 
表 受 试 者 (患者 )。STAI 是 因 变 量 ， 治 疗 方案 是 自 变量 。 由 于 在 每 种 治疗 方案 下 观测 数 相 等 ， 
此 这 种 设计 也 称 为 均衡 设计 (balanced design ); 若 观测 数 不 同 ， 则 称 作 非 均衡 设计 (unbalanced 
design )。 

因为 仅 有 一 个 类 别 型 变量 ， 表 9-1 的 统计 设计 又 称 为 单 因素 方差 分 析 (one-way ANOVA ), 或 
进一步 称 为 单 因 素 组 间 方 差分 析 。 方差 分析 主要 通过 F 检 验 来 进行 效果 评测 , 知 治疗 方案 的 F 检 验 
显著 ， 则 说 明 五 周 后 两 种 疗法 的 STAI 得 分 均值 不 同 。 
假设 你 只 对 CBT 的 效果 感 兴趣 ， 则 需 将 10 个 患者 都 放 在 CBT 组 中 , 然后 在 治疗 五 周 和 六 个 月 
后 分 别 评价 疗效 ， 设 计 方 案 如 表 9-2 所 示 。 

表 9-2 单 因素 组 内 方差 分 析 


时 间 
5 周 6 个 月 
















































































此 时 ， 时间 (time ) 是 两 水 平 (五 周 、 六 个 月 ) 的 组 内 因子 。 因 为 每 位 患者 在 所 有 水 平 下 都 
进行 了 测量 ， 所 以 这 种 统计 设计 称 单 因素 组 内 方差 分 析 ; 又 由 于 每 个 受 试 者 都 不 止 一 次 被 测量 ， 
也 称 作 重复 测量 方差 分 析 。 当 时 间 的 F 检 验 显 著 时 ， 说 明 患 者 的 STAI 得 分 均值 在 五 周 和 六 个 月 间 
发 生 了 改变 。 

现 假设 你 对 治疗 方案 差异 和 它 随 时 间 的 改变 都 感 兴趣 , 则 将 两 个 设计 结合 起 来 即 可 : 随机 分 
配 五 位 患者 到 CBT, 另外 五 位 到 EMDR , 在 五 周 和 六 个 月 后 分 别 评价 他 们 的 STAI 结 果 ( 见 表 9-3 )。 























表 9-3 ” 含 组 间 和 组 内 因子 的 双 因 素 方差 分 析 





5 周 6 个 月 





CBT S3 





EMDR S8 














疗法 (therapy ) 和 时 间 ( time ) 都 作为 因子 时 ， 我 们 既 可 分 析 疗 法 的 影响 ( 时 间 跨 度 上 的 平 
均 ) 和 时 间 的 影响 〈 疗 法 类 型 跨度 上 的 平均 )， 又 可 分 析 疗 法 和 时 间 的 交互 影响 。 前 两 个 称 作 主 
效应 ， 交 互 部 分 称 作 交互 效应 。 

当 设 计 包 含 两 个 甚至 更 多 的 因子 时 , 便 是 因素 方差 分 析 设 计 ， 比 如 两 因子 时 称 作 双 因 素 方 差 
分 析 , 三 因子 时 称 作 三 因素 方差 分 析 ， 以 此 类 推 。 若 因子 设计 包括 组 内 和 组 间 因 子 ， 又 称 作 混 合 
模型 方差 分 析 ， 当 前 的 例子 就 是 典型 的 双 因 素 混合 模型 方差 分 析 。 

本 例 中 ， 你 将 做 三 次 F 检 验 : 疗法 因素 一 次 ， 时 间 因 素 一 次 ， 两 者 交互 因素 一 次 。 若 疗法 结 
果 显 著 , 说 明 CBT 和 EMDR 对 焦虑 症 的 治疗 效果 不 同 ; 若 时 间 结 果 显 著 ， 说 明 焦虑 度 从 五 周到 六 
个 月 发 生 了 变化 ; 若 两 者 交互 效应 显著 , 说 明 两 种 疗法 随 着 时 间 变 化 对 焦虑 症 治疗 影响 不 同 (也 
就 是 说 ， 焦 虚度 从 五 周到 六 个 月 的 改变 程度 在 两 种 疗法 间 是 不 同 的 )。 

现在 ,我 们 对 上 面 的 实验 设计 稍微 做 些 扩展 。 众 所 周知 ,抑郁 症 对 病症 治疗 有 影响 ， 而 且 抑 
郁 证 和 焦虑 证 常常 同时 出 现 。 即 使 受 试 者 被 随机 分 配 到 不 同 的 治疗 方案 中 , 在 研究 开始 时 ， 两 组 
疗法 中 的 患者 抑郁 水 平 就 可 能 不 同 ， 任 何 治疗 后 的 差异 都 有 可 能 是 最 初 的 抑郁 水 平 不 同 导致 的 ， 
而 不 是 由 于 实验 的 操作 问题 。 抑 郁 证 也 可 以 解释 因 变 量 的 组 间 差 异 ， 因 此 它 常 称 为 混 消 因 素 
( confounding factor )。 由 于 你 对 抑郁 症 不 感 兴趣 ， 它 也 被 称 作 干扰 变数 (nuisance variable )。 
假设 招募 患者 时 使 用 抑郁 症 的 自我 评测 报告 ， 比 如 和 白 氏 抑郁 症 量 表 (BDI)， 记 录 了 他 们 的 
抑郁 水 平 ， 那 么 你 可 以 在 评测 疗法 类 型 的 影响 前 ， 对 任何 抑郁 水 平 的 组 间 差 异 进行 统计 性 调整 。 
本 案例 中 ，BDI 为 协 变量 ， 该 设计 为 协 方差 分 析 (ANCOVA )。 

以 上 设计 只 记录 了 单个 因 变 量 情 况 ( STAI )， 为 增强 研究 的 有 效 性 ， 可 以 对 焦 虐 证 进行 其 他 
的 测量 ( 比如 家 庭 评分 、 医 师 评 分 ,以 及 焦虑 症 对 日 党 行为 的 影响 评价 )。 当 因 变 量 不 止 一 个 时 ， 
设计 被 称 作 多 元 方差 分 析 ( MANOVA )， 若 协 变量 也 存在 ， 那 么 就 叫 多 元 协 方 差分 析 
(MANCOVA )。 

学 习 进 行 到 现在 ， 你 已 经 掌握 了 基本 的 方差 分 析 术 语 。 此 时 ， 应 该 可 以 让 朋友 们 大 开眼 界 ， 
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9.2 ANOVA 模型 拟 合 


虽然 ANOVA 和 回归 方法 都 是 独立 发 展 而 来 ， 但 是 从 函数 形式 上 看 ， 它 们 都 是 广义 线性 模型 
的 特例 。 用 第 7 章 讨论 回归 时 用 到 的 Im() 函数 也 能 分 析 ANOVA 模 型 。 不 过 ， 本 章 我 们 基本 都 使 
用 aov () 函数 。 两 个 函数 的 结果 是 等 同 的 ， 但 ANOVA 的 方法 学 习 者 更 熟悉 aov () 函数 展示 结果 
的 格式 。 为 保证 完整 性 ， 在 本 章 最 后 我 们 将 提供 一 个 使 用 lm () 的 例子 。 


9.2.1 














aov() 函数 


aov () 困 数 的 语法 为 aov( formula, aata=dataframe)， 表 9-4 列 举 了 表达 式 中 可 以 使 用 的 
特殊 符号 。 表 9-4 中 的 y 是 因 变 量 ， 字 母 A、B 、c 代 表 因 子 。 


表 9-4 R 表 达 式 中 的 特殊 符号 














用 





并 和 他 们 讨论 如 何 使 用 R 拟 合 ANOVA/ANCOVA/MANOVA 模 型 了 。 











法 





分 隔 符 号 ， 左 边 为 响应 变量 ,右边 为 解释 变量 。 例 如 ， 
例如 , 用 A、B 入 与 的 交互 项 来 预测 y, 代码 为 y ~ A + B + A:B 


表示 变量 的 交互 项 。 


表示 所 有 可 能 交互 项 。 代码 y ~A*B*Cc 可 





























用 A、B 和 c 预 测 y, 代码 为 yr ~A+B+C 


展开 为 y ~A+B+C+A:B+A:C+B:C + A:B:C 


表示 交互 项 达到 某 个 次 数 。 代 码 y ~ (A + B + C)^2 可 展开 为 y ~A+B+C+A:B+A:C+B:C 


表示 包含 除 因 变量 外 的 所 有 变量 。 





< 


例如 ， 若 一 个 数据 








匡 包 含 变量 y、A、B 和 c, 代码 y ~ .可 展开 为 y ~ 














表 9-5 列 举 了 一 些 常 见 的 研究 设计 表达 式 。 在 表 9-5 中 ， 小 写字 母 表示 定量 变量 ， 大 写字 母 表 
示 组 别 因 子 ，subject 是 对 被 试 者 独 有 的 标识 变量 。 


表 9-5 ”常见 研究 设计 的 表达 式 

































































设 计 表 达 式 
单 因素 ANOVA YY -和 9 
含 单个 协 变量 的 单 因 素 ANCOVA Y ~ x+ 和 
双 因素 ANOVA y~A*B 
含 两 个 协 变量 的 双 因 素 ANCOVA y ~ xl + x2 + A*B 
随机 化 区 组 y ~ B + A (B 是 区 组 因子 ) 
单 因 素 组 内 ANOVA y ~ A + Error(Subject/A) 
含 单个 组 内 因子 (w) 和 单个 组 间 因 子 (8 ) 的 重复 测量 ANOVA y ~ B* Wu+ Error(Subject/W) 


























本 昔 后 面 将 深入 探讨 几 个 实验 设计 的 例子 。 
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9.2.2 ”表达 式 中 各 项 的 顺序 


表达 式 中 效应 的 顺序 在 两 种 情况 下 会 造成 影响 : (a) 因 子 不 止 一 个 ， 并 且 是 非 平衡 设计 ; (b) 
存在 协 变量 。 出 现任 意 一 种 情况 时 ， 等 式 右边 的 变量 都 与 其 他 每 个 变量 相关 。 此 时 ,我们 无 法 清 
晰 地 划分 它们 对 因 变 量 的 影响 。 例 如 ， 对 于 双 因 素 方差 分 析 ， 若 不 同 处 理 方 式 中 的 观测 数 不 同 ， 
那么 模型 y ~ A*B 与 模型 y ~ B*A 的 结果 不 同 。 

R 默 认 类 型 I ( 序 贯 型 ) 方法 计算 ANOVA 效 应 (参考 补充 内 容 “ 顺 序 很 重要 !”)。 第 一 个 模型 
可 以 这 样 写 : y ~ A + B + A:B。R 中 的 ANOVA 表 的 结果 将 评价 : 

口 A 对 y 的 影响 ; 

口 控制 A 时 ，B 对 y 的 影响 ; 

口 控制 A 和 B 的 主 效应 时 ，A 与 B 的 交互 效应 。 




































































顺序 很 重要 ! 

当 自 变量 与 其 他 自 变 量 或 者 协 变量 相关 时 ,没有 明确 的 方法 可 以 评价 自 变 量 对 因 变 量 的 贡 
献 。 例 如 ， 仿 因子 A、B 和 因 变 量 y 的 双 因 素 不 平衡 因子 设计 ， 有 三 种 效应 : A 和 B 的 主 效应 ，A 
和 B 的 交互 效应 。 假 设 你 正 使 用 如 下 表达 式 对 数据 进行 建 模 : 

Y~A+B+A:B 

有 三 种 类 型 的 方法 可 以 分 解 等 式 右 边 各 效应 对 y 所 解释 的 方差 。 

类 型 1 〈 序 贯 型 ) 

效应 根据 表达 式 中 先 出 现 的 效应 做 调整 。A 不 做 调整 ，B 根 据 A 调 整 ，A:B 交 互 项 根据 A 和 B 
调整 。 

类 型 开 〈 分 层 型 ) 

效应 根据 同 水 平 或 低 水 平 的 效应 做 调整 。A 根 据 B 调 整 ，B 依 据 A 调 整 ，A:B 交 互 项 同时 根据 
A 和 B 调 整 。 

类 型 亚 〈 边 界 型 ) 

每 个 效应 根据 模型 其 他 各 效应 做 相应 调整 。&A 根 据 B 和 A:B 做 调整 ，A:B 交 互 项 根据 A 和 B 
调整 。 

R 默 认 调用 类 型 [方法 ， 其 他 软件 ( 比如 SAS 和 SPSS ) 默认 调用 类 型 有 方法 。 





样本 大 小 越 不 平衡 ,效应 项 的 顺序 对 结果 的 影响 越 大 。 一 般 来 说 ， 越 基础 性 的 效应 越 需 要 放 
在 表达 式 前 面 。 具 体 来 讲 ， 首 先是 协 变量 ,然后 是 主 效应 ,接着 是 双 因 素 的 交互 项 ， 再 接着 是 三 
因素 的 交互 项 ， 以 此 类 推 。 对 于 主 效应 ， 越 基础 性 的 变量 越 应 放 在 表达 式 前 面 ， 因 此 性 别 要 放 在 
处 理 方式 之 前 。 有 一 个 基本 的 准则 : 符 研 究 设 计 不 是 正 交 的 (也 就 是 说 , 因子 和 /或 协 变 量 相 关 )， 
一 定 要 谨慎 设置 效应 的 顺序 。 

在 讲解 具体 的 例子 前 ， 请 注意 car 包 中 的 Anova () 函数 ( 不 要 与 标准 anova () 函数 混淆 ) 提 
供 了 使 用 类 型 卫 或 类 型 五 方法 的 选项 ， 而 aov () 函数 使 用 的 是 类 型 方法 。 若 想 使 结果 与 其 他 软 
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件 (如 SAS 和 SPSS ) 提供 的 结果 保持 一 致 ， 可 以 使 用 Anova () 函数 ， 细 节 可 参考 help (Anova， 


Dackage="car")。 


9.3 ” 单 因 素 方差 分 析 


单 因素 方差 分 析 中 , 你 感 兴趣 的 是 比较 分 类 因子 定义 的 两 个 或 多 个 组 别 中 的 因 变 量 均 值 。 以 
multcomp 包 中 的 cholesterol 数据 集 为 例 ( 取 自 Westfall 、Tobia 、Rom 、Hochberg，1999 )，50 
个 患者 均 接受 降低 胆固醇 药物 治疗 ( trt ) 五 种 疗法 中 的 一 种 疗法 。 其 中 三 种 治疗 条 件 使 用 药物 
相同 ， 分 别 是 20mg 一 天 一 次 (1ltime )、10mg 一 天 两 次 ( 2times ) 和 5mg 一 天 四 次 (4times )。 剩 下 
的 两 种 方式 (drugD 和 drugE ) 代表 候选 药物 。 哪 种 药物 疗法 降低 胆固醇 ( 响应 变量 ) 最 多 呢 ? 分 
析 过 程 见 代码 清单 9-1。 


代码 清单 9-1 单 因素 方差 分 析 


> library (multcomp) 























> attach (cholesterol) 区 各 组 样本 大 小 
> table(trt) 
ey od 

ltime 2times 4times drugD drugE 

10 10 10 10 10 
人 各 组 均值 

> aggregate(response, by=list(trt), FUN=mean) 

Group.1 
于 ltime 5.78 
2. ~ 2trnes. -roL22 
3 4times 12.37 
4 drugD 15.36 
5 drugE 20.95 

Ws 各 组 标准 差 

> aggregate(response, by=list(trt), FUN=sd) 

Group.1 x 
1 ltime 2.88 
2 2times 3.48 
3 4times 2.92 
4 drugD 3.45 
5 drugE 3.35 
> :fit <- ‘aov (response: ~ trt) 检验 组 间 差 异 (ANOVA) 
> summary (fit) | 四 

Df Sum Sq Mean Sq F value Pr (>F) 

Gt 4 1351 338 32.4 9 BE=L3 和 光大 多 
Residuals 45 469 10 
igni 人 ,GOdES .QO TRE O00 MAE OO Ee O05 a 0 


甘 轩 位 
main="Mean Plot\nwith 95% CI") 值 及 其 置信 


> library (gplots) 绘制 各 组 均 
> plotmeans (response ~ trt, xlab="Treatment", ylab="Response", 

间 的 图 形 
> detach(cholesterol) 区 间 的 图 形 
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从 输出 结果 可 以 看 到 ， 每 10 个 患者 接受 其 中 一 个 药物 疗法 @。 均值 显示 drugE 降 低 胆固醇 最 
多 ， 而 ltime 降 低 胆 固 醇 最 少 @， 各 组 的 标准 差 相 对 恒定 ， 在 2.88 到 3.48 间 浮动 @@。ANOVA 对 治 
疗 方式 (trt ) 的 F 检 验 非常 显著 (p<0.0001 )， 说 明 五 种 疗法 的 效果 不 同 @。 

gplots 包 中 的 plotmeans () 可 以 用 来 绘制 带 有 置信 区 间 的 组 均值 图 形 全 。 如 图 9-1 所 示 ， 
形 展示 了 带 有 95% 的 置信 区 间 的 各 疗法 均值 ， 可 以 清楚 看 到 它们 之 间 的 差异 。 


Mean Plot with 95% Cl 


20 


15 


Response 














1time 2times 4times drugD drugE 











9.3.1 ”多重 比较 


虽然 ANOVA 对 各 疗法 的 F 检 验 表明 五 种 药物 疗法 效果 不 同 , 但 





他 疗法 不 同 。 多 重 比 较 可 以 解决 这 个 问题 。 
对 检验 ( 见 代 码 清 单 9-2 )。 


代码 清单 9-2 ”Tukey HSD 的 成 对 组 间 比 较 


> TukeyHSD (fit) 


Treatment 


图 9-1 五 种 降低 胆固醇 药物 疗法 的 均值 ， 含 95% 的 置信 














例如 ，TukeyHSD () 函 


Tukey multiple comparisons of means 
95% family-wise confidence level 


Fit: aov(formula = response ~ trt) 


Strt 
diff J]wr 如 记 臣 
2times-1ltime 3 S0658. .34 


drugD-1ltime 9.58 “Sw478 136.8 
drugE-1ltime Se Dy a 4 SP Nn ee Eh 
4times-2times 3.15 -0.951 7.25 


p 
0 
4times-1ltime G39 0 T0090, 
0 
0 
0 


adj 


138 


000 


.000 
.000 
.205 








区 间 


是 并 没有 告诉 你 哪 种 疗法 与 其 
数 提供 


了 对 各 组 均值 差异 的 成 
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drugD-2times »035: 10.24 70001 
drugE-2times 11.72 7.621 15.82 0.000 


6.14 0 
1 0 
drugD-4times DQ . 090 20. 
8 0 
b, 0 


DD 


drugE-4times 0 salol2..67 :0.000 
drugE-drugD eo) 485 52690003 


FF 心 


> par (las=2) 
> par (mar=c(5,8,4,2)) 
> plot (TukeyHSD (fit)) 


可 以 看 到 ，1time 和 2times 的 均值 差异 不 显著 (p=0.138 )， 而 1time 和 4times 间 的 差异 非常 显著 
(p<0.001 )。 

成 对 比较 图 形 如 图 9-2 所 示 。 第 一 个 par 语 句 用 来 旋转 轴 标 签 , 第 二 个 用 来 增 大 左边 界 的 面积 ， 
可 使 标签 摆 放 更 美观 (par 选项 参见 第 3 章 )。 图 形 中 置信 区 间 包 含 0 的 疗法 说 明 差 异 不 显著 
(p>0.5 )。 











95% family-wise confidence level 


2times-1time 


4times-1tim e 


drugD-ttime 


drugE-1time 


4times-2times 


drugD-2times 


drugE-2times 


drugD-4times 


drugE-4times 


drugE-drugD 





Differences in mean levels of trt 
图 9-2 ”Tukey HSD 均 值 成 对 比较 图 
multcomp 包 中 的 glht () 函数 提供 了 多 重 均值 比较 更 为 全 面 的 方法 ， 既 适用 于 线性 模型 ( 如 


本 章 各 例 )， 也 适用 于 广义 线性 模型 ( 见 第 13 章 )。 下 面 的 代码 重 现 了 Tukey HSD 检 验 ， 并 用 一 个 
不 同 的 图 形 对 结果 进行 展示 ( 图 9-3 ): 

















library (multcomp) 
par (mar=c (5,4,6,2)) 
tuk <- glht (fit, linfct=mcp (trt="Tukey")) 


次 
> 
> plot (cld(tuk, level=.05),col="lightgrey") 





oy 
可 


response 
各 20 


10 





1time 2times 4times drugD drugE 


trt 





图 9-3 ”multcomp 包 中 的 Tukey HSD 检 验 


上 面 的 代码 中 , 为 适合 字母 阵列 摆 放 , par 语 句 增 大 了 顶部 边界 面积 。cla() 函数 中 的 level 
选项 设置 了 使 用 的 显著 水 平 (0.05， 即 本 例 中 的 95% 的 置信 区 间 )。 

有 相同 字母 的 组 ( 用 箱 线 图 表示 ) 说 明 均 值 差异 不 显著 。 可 以 看 到 ，1time 和 2times 差 异 不 
显著 (有 相同 的 字母 a )，2times 和 4times 差 异 也 不 显著 ( 有 相同 的 字母 b )， 而 1time 和 4times 差 异 
显著 (它们 没有 共同 的 字母 )。 个 人 认为 ， 图 9-3 比 图 9-2 更 好 理解 ， 而 且 还 提供 了 各 组 得 分 的 分 
布 信息 。 

从 结果 来 看 ， 使 用 降低 胆固醇 的 药物 时 ， 一 天 四 次 mg 剂量 比 一 天 一 次 20mg 剂 量 效果 更 佳 ， 
也 优 于 候选 药物 drugD ， 但 药物 drugE 比 其 他 所 有 药物 和 疗法 都 更 优 。 

多 重 比较 方法 是 一 个 复杂 但 正 迅 速 发 展 的 领域 , 想 了 解 更 多 , 可 参考 Bretz、Hothom 和 Westfall 
的 Multiple Comparisons Using R( 2010 ) 一 书 。 


9.3.2 评估 检验 的 假设 条 件 


上 一 章 已 经 提 过 ， 我 们 对 于 结果 的 信心 依赖 于 做 统计 检验 时 数据 满足 假设 条 件 的 程度 。 单 
因素 方差 分 析 中 ， 我 们 假设 因 变 量 服从 正 态 分 布 ， 各 组 方差 相等 。 可 以 使 用 Q-Q 图 来 检验 正 态 
性 假设 : 

> library (car) 


> qqPlot (lm(response ~ trt, data=cholesterol), 
simulate=TRUE, main="Q-Q Plot", labels=FALSE) 


注意 qqPlot () 要求 用 1m() 拟 合 。 图 形 如 图 9-4 所 示 。 数据 落 在 95% 的 置信 区 间 范 围 内 , 说 明 
满足 正 态 性 假设 。 
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Q-Q Plot 


cholesterol)) 


Studentized Residuals(Im(response ~ trt, data 


-2 





4 t Quantiles 


图 9-4” 正 态 性 检验 
R 提 供 了 一 些 可 用 来 做 方差 齐 性 检验 的 函数 。 例 如 ， 可 以 通过 如 下 代码 来 做 Bartlett 检 验 : 
> bartlett.test (response ~ ttrt，qata=cholesterol) 
Bartlett test of homogeneity of variances 


data: response by trt 
Bartlett's K-squared = 0.5797, df = 4, p-value = 0.9653 


Bartlett 检 验 表 明 五 组 的 方差 并 没有 显著 不 同 (p=0.97 )。 其 他 检验 如 Fligner-Killeen 检 验 
(fligner.test() 国 数 ) 和 Brown-Forsythe 检 验 (HH 包 中 的 hov () 函数 ) 此 处 没有 做 演示 , 但 它 
们 获得 的 结果 与 Bartlett 检 验 相同 。 

不 过 , 方差 齐 性 分 析 对 离 群 点 非常 敏感 。 可 利用 car 包 中 的 outlierTest () 函数 来 检测 离 
群 点 : 


> library (car) 
> outlierTest (fit) 








No Studentized residuals with Bonferonni p < 0.05 
Largest |rstudent|: 





rstudent unadjusted p-value Bonferonni p 
:92 252251149 0.029422 NA 


从 输出 结果 来 看 ， 并 没有 证 据说 明 胆固醇 数据 中 含有 离 群 点 ( 当 p>1 时 将 产生 NA )。 因 此 根 
据 Q-Q 图 、Bartlett 检 验 和 离 群 点 检验 ， 该 数据 似乎 可 以 用 ANOVA 模 型 拟 合 得 很 好 。 这 些 方 法 反 
过 来 增强 了 我 们 对 于 所 得 结果 的 信心 。 


9.4 单 因素 协 方差 分 析 


单 因素 协 方差 分 析 (ANCOVA ) 扩展 了 单 因素 方差 分 析 ( ANOVA ), 包含 一 个 或 多 个 定量 的 
协 变量 。 下 面 的 例子 来 自 于 multcomp 包 中 的 1itter 数 据 集 ( 见 Westfall et al.，1999 )。 怀 孕 小 鼠 
被 分 为 四 个 小 组 ， 每 个 小 组 接受 不 同 剂量 (0、5、50 或 500 ) 的 药物 处 理 。 产 下 幼 患 的 体重 均值 
为 因 变 量 ， 怀 孕 时 间 为 协 变量 。 分 析 代码 见 代码 清单 9-3。 


代码 清单 9-3 ” 单 因素 ANCOVA 

> data(litter, package="multcomp") 

> attach (litter) 

> table (dose) 
dose 

0 S'S0.500 
2.0 5 "二 9.a -汪汪 
> aggregate (weight, by=list (dose), FUN=mean) 























Group.1 扩 
J 0 32;,3 
S729 3 
3 S50 29:.9 
4 500 29.6 


> fit <- aov(weight ~ gesttime + dose) 
> summary (fit) 

Df Sum Sq Mean Sq F value Pr (>F) 
gesttime 1 134,30 “134.30. “80493, ;0.005971 ** 
dose 二 5 "7394 05049883 » 
Residuals 69. L5127 6769 


Sioni fs "COdes: FO TR 00L OO 天 二 证 0 站 司 ， 本 和 本 了 本庄 


利用 table () 函数 ， 可 以 看 到 每 种 剂量 下 所 产 的 幼 央 数 并 不 相同 : 0 剂量 时 (未 用 药 ) 产 趾 
20 个 ，500 剂 量 时 产 趾 17 个 。 再 用 aggregate() 函数 获得 各 组 均值 ， 可 以 发 现 未 用 药 组 幼 央 体重 
均值 最 高 (32.3 )。ANCOVA 的 F 检 验 表明 : (aq) 怀 孕 时 间 与 幼 砷 出 生体 重 相关 ; (b) 控 制 怀孕 时 间 ， 
药物 剂量 与 出 生体 重 相关 。 控 制 怀孕 时 间 ， 确 实 发 现 每 种 药物 剂量 下 幼 嘎 出 生体 重 均值 不 同 。 

由 于 使 用 了 协 变 量 , 你 可 能 想 要 获取 调整 的 组 均值 ， 即 去 除 协 变量 效应 后 的 组 均值 。 可 使 用 
effects 包 中 的 effects() 函数 来 计算 调整 的 均值 : 


> library (effects) 
> effect ("dose", fit) 
































dose effect 
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dose 
0 5 50. .500 
32 A428 9 30 6%29%3 


本 例 中 ， 调 整 的 均值 与 aggregate () 函数 得 出 的 未 调整 的 均值 类 似 ， 但 并 非 所 有 的 情况 都 
是 如 此 。 总 之 ,effects 包 为 复杂 的 研究 设计 提供 了 强大 的 计算 调整 均值 的 方法 , 并 能 将 结果 可 
视 化 ， 更 多 细节 可 参考 CRAN 上 的 文档 。 

和 上 一 节 的 单 因素 ANOVA 例 子 一 样 ,剂量 的 F 检 验 虽 然 表 明了 不 同 的 处 理 方式 幼 患 的 体重 均 
值 不 同 ， 但 无 法 告知 我 们 哪 种 处 理 方式 与 其 他 方式 不 同 。 同 样 ， 我 们 使 用 multcomp 包 来 对 所 有 
均值 进行 成 对 比较 。 另 外 ，multcome 包 还 可 以 用 来 检验 用 户 自 定义 的 均值 假设 。 

假定 你 对 未 用 药 条 件 与 其 他 三 种 用 药 条 件 影响 是 否 不 同感 兴趣 。 代 码 清单 9-4 可 以 用 来 检验 


你 的 假设 。 


代码 清单 9-4 对 用 户 定义 的 对 照 的 多 重 比较 
> library (multcomp) 
> contrast <- rbind("no drug vs. drug" = c(3, -1, -1, -1)) 
> summary (glht (fit, linfct=mcp (dose=contrast))) 

















Multiple Comparisons of Means: User-defined Contrasts 
Fit: aov(formula = weight ~ gesttime + dose) 


Linear Hypotheses: 
Estimate Std. Error t value Pr(>|t|) 
no drug vs. drug == 8.284 3.209 DBL OOEOL 


(Sep eli el lolo [7 te (OKO I Wee feteA CO OL OE We Le 0 WEN Oe EE 0 


对 照 c(3，-1，-1，-1) 设 定 第 一 组 和 其 他 三 组 的 均值 进行 比较 ,假设 检验 的 统计 量 (2.581 ) 
在 p<0.05 水 平 下 显著 ， 因此， 可 以 得 出 未 用 药 组 比 其 他 用 药 条 件 下 的 出 生体 重 高 的 结论 。 其 他 对 
照 可 用 rping() 函数 添加 ( 详 见 help (glht) )。 


9.4.1 评估 检验 的 假设 条 件 


ANCOVA 与 ANOVA 相 同 ， 都 需要 正 态 性 和 同方 差 性 假设 ， 可 以 用 9.3.2 节 中 相同 的 步 又 来 检 
验 这 些 假设 条 件 。 男 外 , ANCOVA 还 假定 回归 斜率 相同 。 本 例 中 , 假定 四 个 处 理 组 通过 怀孕 时 间 
来 预测 出 生体 重 的 回归 和 斜率 都 相同 。ANCOVA 模 型 包含 怀孕 时 间 x 剂 量 的 交互 项 时 ， 可 对 回归 和 斜 
率 的 同 质 性 进行 检验 。 交 互 效 应 若 显 著 , 则 意味 着 时 间 和 幼 患 出 生体 重 间 的 关系 依赖 于 药物 剂量 
的 水 平 。 代 码 和 结果 见 代码 清单 9-5。 


代码 清单 9-5 检验 回归 斜率 的 同 质 性 
> library (multcomp) 
> fit2 <- aov (weight ~ gesttime*dose, data=litter) 
> summary (fit2) 
Df Sum Sq Mean Sq F value Pr (>F) 
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Gesttime 业 134 134 9 人 095 

dose 3 137 46 2.82. .0250456. * 

gesttime:dose 3 82 2 1.68 0.1789 

Residuals 66 1069 16 

ogniif. ‘COE 0 AEP OO , Ww OF0L 7 HD OOB VD OR WL 





可 以 看 到 交互 效应 不 显著 ,支持 了 和 斜率 相等 的 假设 。 若 假设 不 成 立 , 可 以 尝试 变换 协 变量 或 
对 变 量 ， 或 使 用 外 E 对 每 个 斜率 独立 解释 的 模型 型 ， 或 使 用 不 需要 假设 回归 斜率 同 质 性 的 非 参 数 
ANCOVA 方 法 。sm 包 中 的 sm.ancova() 图 数 为 后 者 提供 了 一 个 例子 。 


9.4.2 ”结果 可 视 化 
HH 包 中 的 ancova () 函数 可 以 绘制 因 变量 、 协 变量 和 因子 之 间 的 关系 图 。 例 如 代码 ; 


> library (HH) 
> ancova (weight ~ gesttime + dose, data=litter) 


生成 的 图 形 如 图 9-5 所 示 。 注 意 ， 为 了 适应 黑白 印刷 ， 图 形 已 经 过 修改 。 因 此 ， 你 自己 运行 上 面 
代码 所 得 图 形 会 略 有 不 同 。 























weight ~ gesttime + dose 
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图 9-5 ”四 种 药物 处 理 组 的 怀孕 时 间 和 出 生体 重 的 关系 图 














9.$ ” 双 因 素 方 差分 析 211 








从 图 中 可 以 看 到 ,用 怀孕 时 间 来 预测 出 生体 重 的 回归 线 相互 平行 ,只 是 截 距 项 不 同 。 随 着 怀 
孕 时 间 增 加 , 幼 串 出 生体 重 也 会 增加 。 男 外 ,还 可 以 看 到 0 剂量 组 截 距 项 最 大 ，5 剂 量 组 截 距 项 最 
小 。 由 于 你 上 面 的 设置 ， 直 线 会 保持 平行 ， 若 用 ancova (weight ~ gesttime*dose)， 生 成 的 
图 形 将 允许 斜率 和 截 距 项 依据 组 别 而 发 生变 化 , 这 对 可 视 化 那些 违背 回归 斜率 同 质 性 的 实例 非常 
有 用 。 


9.5 ” 双 因 素 方 差分 析 


在 双 因 素 方差 分 析 中 ， 受 试 者 被 分 配 到 两 因子 的 交叉 类 别 组 中 。 以 基础 安装 中 的 
ToothGrowth 数 据 集 为 例 ， 随 机 分 配 60 只 豚鼠 ， 分 别 采用 两 种 喂食 方法 (橙汁 或 维生素 C )， 各 
喂食 方法 中 抗坏血酸 含量 有 三 种 水 平 (0.5mg、1mg 或 2mg )， 每 种 处 理 方式 组 合 都 被 分 配 10 只 豚 
鼠 。 牙 齿 长 度 为 因 变 量 , 分 析 的 代码 见 代码 清单 9-6。 


代码 清单 9-6 ” 双 因 素 ANOVA 
> attach (ToothGrowth) 
> table(supp, dose) 
dose 
SuUppD 05D “1 ;2 
QF ,LOMLEOQL TO. 
VE 下 0 0 .10 

















V 


aggregate(len, by=list (supp, dose), FUN=mean) 


Group.1 Group .2 x 
1 OJ QO". "L323 
2 VC (Ol 9 
3 OJ T0220 
4 VC 下 6 
5 OJ 2.0 26.06 
6 VC 2.0 26.14 


> aggregate(len, by=list (supp, dose), FUN=sqd) 





Group.1 Group .2 4 
证 OJ 0.5 4.46 
2 VC 名. 
3 OJ Oe 
4 VC Oi D2 
5 OJ D0 2 66 
6 Ve 2.0 4.80 


> dose <- factor (dose) 
> fit <- aov(len ~ supp*dose) 
> summary (fit) 


Df Sum Sq Mean Sq F value Pr(>F) 


supp 于 205 205 LSY O000 2 YY 
dose 2 2426 L213 92.00 < Ze8=16. 二 大业 
supp:dose 2 108 54 4511 "0 502186-* 


Residuals 54 712 13 
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> detach (ToothGrowth) 


table 语 句 的 预 处 理 表明 该 设计 是 均衡 设计 ( 各 设计 单元 中 样本 大 小 都 相同 )，aggregate 
语句 处 理 可 获得 各 单元 的 均值 和 标准 差 。 dose 变 量 被 转换 为 因子 变量 , 这 样 aov () 函数 就 会 将 它 
当做 一 个 分 组 变量 , 而 不 是 一 个 数值 型 协 变量 。 用 summary () 函数 得 到 方差 分 析 表 ,可 以 看 到 主 
效应 (supp 和 dose ) 和 交互 效应 都 非常 显著 。 

有 多 种 方式 对 结果 进行 可 视 化 处 理 。 此 处 可 用 interaction.plot () 函数 来 展示 双 因 素 方 
差分 析 的 交互 效应 。 代 码 为 : 

interaction.plot(dose, Supp, len, type="b", 


COLl=O( "TE "BINer), Peh=e (tL6y 18). 
main = "Interaction between Dose and Supplement Type") 


结果 如 岁 9-6 所 示 。 图 形 展示 了 各 种 剂量 喂食 下 豚鼠 牙齿 长 度 的 均值 。 


Interaction between Dose and Supplement Type 






















































































四 J supp 
—— VC 
-e- OJ 
5 
5 
§ 
E ww 
0.5 1 2 
dose 
图 9-6 ”喂食 方法 和 剂量 对 牙齿 生长 的 交互 作用 。 用 interaction.plot() 函数 绘制 
了 牙齿 长 度 的 均值 





还 可 以 用 gplots 包 中 的 plotmeans () 函数 来 展示 交互 效应 。 生 成 图 形 如 图 9-7 所 示 , 代码 
如 下 : 


library (gplots) 

plotmeans (len ~ interaction(supp, dose, sep=" "), 
connect=list(c(1,3,5),c(2,4,6)), 
col=c("red", "darkgreen"), 
main = "Interaction Plot with 95% CIs", 
xlab="Treatment and Dose Combination") 
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Interaction Plot with 95% Cls 





























n=10 n=10 n=10 n=10 n=10 n=10 
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OJD.S VC 0.5 OJ1 VC 1 OJ2 VC2 


Treatment and Dose Combination 


图 9-7 喂食 方法 和 剂量 对 牙齿 生长 的 交互 作用 。 用 plotmeans () 函数 绘制 的 95% 的 置 
信 区 间 的 牙齿 长 度 均值 
图 形 展示 了 均值 、 误 差 棒 ( 95% 的 置信 区 间 ) 和 样本 大 小 。 
最 后 ， 你 还 能 用 HH 包 中 的 interaction2wt () 函数 来 可 视 化 结果 ， 图 形 对 任意 顺序 的 因子 
设计 的 主 效应 和 交互 效应 都 会 进行 展示 ( 图 9-8 )。 


library (HH) 
interaction2wt (len~supp*dose) 





























len: main effects and 2-way interactions 





len ~ supp | dose len ~ dose | dose 
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图 9-8 ”ToothGrowth 数 据 集 的 主 效应 和 交互 效应 。 图 形 由 interaction2wt () 函数 
创建 
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同样 ， 图 9-8 为 适合 黑白 印刷 做 了 修改 ， 若 你 运行 上 面 的 代码 ， 生 成 的 图 形 会 略 有 不 同 。 

以 上 三 幅 图 形 都 表明 随 着 橙汁 和 维生素 C 中 的 抗坏血酸 剂量 的 增加 ,牙齿 长 度 变 长 。 对 于 
0.5mg 和 1mg 剂 量 ， 橙 汁 比 维生素 C 更 能 促进 牙齿 生长 ;对 于 2mg 剂 量 的 抗坏血酸 ， 两 种 喔 食 方法 
下 牙齿 长 度 增 长 相同 。 

三 种 绘图 方法 中 ， 我 更 推荐 HH 包 中 的 interaction2wt () 函数 ， 因 为 它 能 展示 任意 复杂 度 
设计 〈 双 因素 方差 分 析 、 三 因素 方差 分 析 等 ) 的 主 效应 ( 箱 线 图 ) 和 交互 效应 。 

此 处 没有 涵盖 模型 假设 检验 和 均值 比较 的 内 容 ， 因 为 它们 只 是 之 前 方法 的 一 个 自然 扩展 而 
已 。 此 外 ， 该 设计 是 均衡 的 ， 故 而 不 用 担心 效应 顺序 的 影响 。 


9.6 重复 测量 方差 分 析 


所 谓 重 复 测 量 方差 分 析 , 即 受 试 者 被 测量 不 止 一 次 。 本 节 重 点 关注 含 一 个 组 内 和 一 个 组 间 因 
子 的 重复 测量 方差 分 析 ( 这 是 一 个 常见 的 设计 )。 示 例 来 源 于 生理 生态 学 领域 ， 研 究 方向 是 生命 
系统 的 生理 和 生化 过 程 如 何 响应 环境 因素 的 变异 ( 此 为 应 对 全 球 变 暧 的 一 个 非常 重要 的 研究 领 
域 )。 基 础 安装 包 中 的 co2 数 据 集 包含 了 北方 和 南方 牧草 类 植物 Echinochloa crus-galli ( Potvin、 
Lechowicz、Tardif，1990 ) 的 寒冷 容忍 度 研 究 结 果 ， 在 某 浓度 二 氧化 碳 的 环境 中 ， 对 寒带 植物 与 
非 寒 带 植物 的 光合 作用 率 进 行 了 比较 。 研 究 所 用 植物 一 半 来 自 于 加 拿 大 的 魁北克 省 ( Quebec )， 
另 一 半 来 自 美 国 的 密西西比 州 (Mississippi )。 
首先 ， 我 们 关注 寒带 植物 。 因 变量 是 二 氧化 碳 吸 收 量 (uptake )， 单位 为 mVL， 自 变量 是 植 
物 类 型 Type( 各 北 克 VS .密西西比 ) 和 七 种 水 平 ( 95~1000 umol/m 人 2 sec ) 的 二 氧化 碳 浓度 ( conc )。 
男 外 ，Type 是 组 间 因 子 ，conc 是 组 内 因子 。Type 已 经 被 存储 为 一 个 因子 变量 , 但 你 还 需要 先 将 
conc 转 换 为 因子 变量 。 分 析 过 程 见 代码 清单 9-7。 


代码 清单 9-7 含 一 个 组 间 因 子 和 一 个 组 内 因子 的 重复 测量 方差 分 析 
> CO2S$conc <- factor (CO2$conc) 
> wlbl <- subset (CO2, Treatment=='chilled') 
> fit <- aov(uptake ~ conc*Type + Error(Plant/ (conc)), wilbl) 
> summary (fit) 








































































































Error: Plant 
Df Sum Sq Mean Sq F value Pr(>F) 


Type 1 2667 2667 60.4 0.0015 ** 
Residuals 4 4377 44 
Orgnif, .Gdes nO TR 0 00 7 OO EP VOYOD TT OL DL 


Error: Plant:conc 
Df Sum Sq Mean Sq F value Pr(>F) 


conc 6 1472 245.4 02 5, Ly Se LZ Fw* 
conc:Type 6 429 Ns se A A 
Residuals 24 汪 二 人 2 4.7 


SOTONTEfy "GOS 0 VERY 0 00T 3 OO TE OOS 风 H 和 
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V 


par (Las=2) 
par (mar=c (10,4,4,2)) 
> with(wlbl, interaction.plot (conc,Type,uptake, 
typeas"b"; Colse("red" "blue");: pehac(l, 8), 
main="Interaction Plot for Plant Type and Concentration")) 
> boxplot (uptake ~ Type*conc, data=wlbl, col=(c("gold", "green")), 
main="Chilled Quebec and Mississippi Plants", 
ylab="Carbon dioxide uptake rate (umol/m’^2 sec)") 


方差 分 析 表 表明 在 0.01 的 水 平 下 ， 主 效应 类 型 和 浓度 以 及 交叉 效应 类 型 x 浓度 都 非常 显著 ， 
图 9-9 中 通过 interaction.plot () 子 数 展示 了 交互 效应 。 


V 











Interaction Plot for Plant Type and Concentration 
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Conc 
图 9-9_ CO; 浓度 和 植物 类 型 对 CO 吸收 的 交互 影响 。 图 形 由 interaction.plot 1() 函 
数 绘制 








若 想 展示 交互 效应 其 他 不 同 的 侧面 , 可 以 使 用 boxplot () 函数 对 相同 的 数据 画图 , 结果 见 图 9 
9-10。 
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Chilled Quebec and Mississippi Plants 
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图 9-10 CO, 浓度 和 植物 类 型 对 CO;, 吸 收 的 交互 效应 。 图 形 由 boxplot () 函数 绘制 


从 以 上 任意 一 幅 图 都 可 以 看 出 , 性 北 克 省 的 植物 比 密西西比 州 的 植物 二 氧化 碳 吸收 率 高 ， 而 
且 随 着 CO, 浓 度 的 逢 高， 差异 越 来 越 明显 。 








注意 通常 处 理 的 数据 集 是 宽 格 式 (wide format )， 即 列 是 变量 ， 行 是 观测 值 ， 而 且 一 行 一 个 受 
试 对 象 。9.4 节 中 的 1itter 数 据 框 就 是 一 个 很 好 的 例子 。 不 过 在 处 理 重 复 测量 设计 时 ， 需 
要 有 长 格式 (long format ) 数据 才能 拟 合 模型 。 在 长 格式 中 ， 因 变量 的 每 次 测量 都 要 放 到 
它 独 有 的 行 中 ，Cc0O2 数 据 集 即 该 种 形式 。 幸 运 的 是 ，$.6.3 节 的 reshape 包 可 方便 地 将 数据 
转换 为 相应 的 格式 。 


混合 模型 设计 的 各 种 方法 
在 分 析 本 节 关 于 CO5 的 例子 时 ,我 们 使 用 了 传统 的 重复 测量 方差 分 析 。 该 方法 假设 任意 组 
内 因子 的 协 方差 矩阵 为 球形 , 并 且 任 意 组 内 因子 两 水 平 间 的 方差 之 差 都 相等 。 但 在 现实 中 这 种 
假设 不 可 能 满足 ， 于 是 衍生 了 一 系列 备 选 方法 : 
口 使 用 1me4 包 中 的 lmer () 函数 拟 合 线性 混合 模型 (Bates，2005 ); 
口 使 用 car 包 中 的 Anova () 函数 调整 传统 检验 统计 量 以 弥补 球形 假设 的 不 满足 (例如 
Geisser-Greenhouse 校 正 ); 
口 使 用 nlme 包 中 的 gls () 函数 拟 合 给 定 方差 - 协 方差 结构 的 广义 最 小 二 乘 模型 (UCLA， 
2009 ); 
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口 用 多 元 方差 分 析 对 重复 测量 数据 进行 建 模 (Hand，1987 )。 
以 上 方法 已 超出 本 书 范畴 ， 如 果 你 对 这 些 方法 感 兴 趣 ， 可 以 参考 Pinheiro & Bates (2000 )、 
Zuur et al ( 2009 )。 

















目前 为 止 , 本 章 都 只 是 对 单个 因 变 量 的 情况 进行 分 析 。 在 下 一 节 , 我 们 将 简略 介绍 多 个 结果 


变量 的 设计 。 
9.7 多 元 方差 分 析 


当 因 变量 (结果 变量 ) 不 止 一 个 时 ， 可 用 多 元 方差 分 析 (MANOVA ) 对 它们 同时 进行 分 析 。 
以 Mass 包 中 的 Uscereal 数 据 集 为 例 ( Venables，Ripley ( 1999 ) ), 我 们 将 研究 美国 谷物 中 的 卡 路 
里 、 脂 肪 和 糖 含量 是 否 会 因为 储存 架 位 置 的 不 同 而 发 生变 化 ; 其 中 1 代表 底层 货架 ，2 代 表 中 层 货 
架 ，3 代 表 顶 层 货架 。 卡 路 里 、 脂 肪 和 糖 含量 是 因 变 量 ， 货 架 是 三 水 平 (1、2、3 ) 的 自 变 量 。 分 
析 过 程 见 代码 清单 9-8。 


代码 清单 9-8 单 因素 多 元 方差 分 析 


> library (MASS ) 

> _ attach(UScereal) 

> Shelf <- factor (Shelf) 

> Y <- cbind(calories, fat, sugars) 

> aggregate(ly, by=list(shelf), FUN=mean) 


























Group.1 calories fat sugars 


1 1 119 0.662 6.3 
和 2 2 130" 二 3 村 二 U2) 
3 3 L180 945 09 
> covly) 


calories fat sugars 
calories 3895.2 60.67 180.38 
fat GO Zs 4.00 
sugars 上古 村 . 刁 D343 





> fit <- manovaly ~ shelf) 
> summary (fit) 


Df Pillai approx F num Df den Df Pr (>F) 
shelf 2 0402 Bard2 6 122 下 区 滞 0 流 尖 大 
Residuals 62 
Sionili 人 人 OQeESa OT 宙 OO0L. OOT 和 DO 


> summary .aov (fit) 
6 输出 单 变量 结果 


Response calories : 
Df Sum Sq Mean Sq F value Pr (>F) 
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shelf 2 50435 25218 86 .0.00091 “次 
Residuals 62 198860 3207 


SLTorniEs "COQeen POW OL 人 


Response fat : 
Df Sum Sq Mean Sq F value Pr(>F) 


shelf 2 18.4 9.7522 3.68 0.031 * 
Residuals G2 582 2550 
Sonif 生生 ES 入 0 


Response sugars : 
Df Sum Sq Mean Sq F value Pr(>F) 





shelf 2 381 191 6.58 0.0026 ** 
Residuals 62 1798 29 
Slognif eos SO EE raO00L TO O00 Ti O01 TE 


首先 ,我 们 将 shelf 变 量 转换 为 因子 变量 , 从 而 使 它 在 后 续 分 析 中 能 作为 分 组 变量 。cbind () 
函数 将 三 个 因 变量 ( 卡路里、 脂肪 和 糖 ) 合并 成 一 个 矩阵 。aggregate() 函数 可 获取 货架 的 各 
个 均值 ，cov () 则 输出 各 谷物 间 的 方差 和 协 方差 。 

manova () 函数 能 对 组 间 差 异 进行 多 元 检验 。 上 面 F 值 显著 , 说 明 三 个 组 的 营养 成 分 测量 值 不 
同 。 注 意 shelf 变 量 已 经 转 成 了 因子 变量 ， 因 此 它 可 以 代表 一 个 分 组 变量 。 

由 于 多 元 检验 是 显著 的 , 可 以 使 用 summary .aov () 函数 对 每 一 个 变量 做 单 因 素 方差 分 析 @。 
从 上 述 结果 可 以 看 到 ,三 组 中 每 种 营养 成 分 的 测量 值 都 是 不 同 的 。 另外 ,还 可 以 用 均值 比较 步 又 
( 比如 TukeyHSD ) 来 判断 对 于 每 个 因 变 量 ， 哪 种 货架 与 其 他 货架 都 是 不 同 的 (此 处 已 略 去 ， 以 节 
省 空间 )。 









































9.7.1 评估 假设 检验 

单 因素 多 元 方差 分 析 有 两 个 前 提 假 设 , 一 个 是 多 元 正 态 性 , 一 个 是 方差 - 协 方差 矩阵 同 质 性 。 
第 一 个 假设 即 指 因 变 量 组 合成 的 向 量 服 从 一 个 多 元 正 态 分 布 。 可 以 用 Q-Q 图 来 检验 该 假设 条 件 
(参见 “理论 补充 ”对 其 工作 原理 的 统计 解释 )。 


























理论 补充 
若 有 一 个 px1 的 多 元 正 态 随机 向 量 xf， 均 值 为 4， 协 方差 矩阵 为 2， 那 么 xz 与 /的 马 氏 距离 的 
平方 服从 自由 度 为 p 的 卡 方 分 布 。Q-Q 图 展示 卡 方 分 布 的 分 位 数 ， 横 纵 坐 标 分 别 是 样本 量 与 蕊 
氏 距 离 平方 值 。 如 果 点 全 部 落 在 斜率 为 1、 截 距 项 为 0 的 直线 上 , 则 表明 数据 服从 多 元 正 态 分 布 。 


分 析 代 码 见 代码 清单 9-9， 结 果 见 图 9-11。 
代码 清单 9-9 ”检验 多 元 正 态 性 


> center <- colMeans (y) 
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n <- nrowly) 

p <- ncoll(y) 

COV <- covl(y) 

d <- mahalanobisl(y,center,cov) 

coord <- qqplot (gchisgq(ppoints (n),df=p), 
d, main="Q-Q Plot Assessing Multivariate Normality", 
ylab="Mahalanobis D2") 

> abline(a=0,b=1) 

> identify(coord$x, coord$sy, labels=row.names (UScereal)) 


人 


Q-Q Plot Assessing Multivariate Normality 


Wheaties Honey Gold o 


40 


30 


Wheaties o 


Mahalanobis D2 
20 


10 





qchisq(ppoints(n), df = p) 
图 9-11 检验 多 元 正 态 性 的 Q-Q 图 


若 数 据 服从 多 元 正 态 分 布 , 那么 点 将 落 在 直线 上 。 你 能 通过 igentify () 函数 (参见 16.4 节 ) 

交互 性 地 对 图 中 的 点 进行 鉴别 。 从 图 形 上 看 ， 观 测 点 “Wheaties Honey Gold” 和 “Wheaties” 异 
常 ， 数 据 集 似乎 违反 了 多 元 正 态 性 。 可 以 删除 这 两 个 点 再 重新 分 析 。 

方差 - 协 方差 矩阵 同 质 性 即 指 各 组 的 协 方差 答 阵 相同 ， 通常 可 用 Box's M 检 验 来 评估 该 假设 。 
由 于 R 中 没有 Box’s M 函 数 ， 可 以 通过 网 络 搜 索 找到 合适 的 代码 。 男 外 , 该 检验 对 正 态 性 假设 很 敏 
感 ， 会 导致 在 大 部 分 案例 中 直接 拒绝 同 质 性 假设 。 也 就 是 说 ， 对 于 这 个 重要 的 假设 的 检验 ,， 我们 
目前 还 没有 一 个 好 方法 (但 是 可 以 参考 Anderson (2006 ) 和 Silva et al ( 2008 ) 提供 的 一 些 有 趣 的 
备 选 方法 ， 虽 然 在 R 中 还 没有 实现 )。 

最 后 ， 还 可 以 使 用 mvout1lier 包 中 的 ap .plot () 函数 来 检验 多 元 离 群 点 。 代 码 如 下 : 


library (mvoutlier) 
outliers <- aq.plot(y) 
outliers 


自己 尝试 一 下 ， 看 看 会 得 到 什么 结果 吧 ! 
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9.7.2 稳健 多 元 方差 分 析 


如 果 多 元 正 态 性 或 者 方差 - 协 方差 均值 假设 都 不 满足 ， 或 者 你 担心 多 元 离 群 点 ， 那 么 可 以 考 
处 用 稳健 或 非 参 数 版 本 的 MANOVA 检 验 。 稳 健 单 因 素 MANOVA 可 通过 rrcov 包 中 的 
Wilks .test () 函数 实现 。vegan 包 中 的 adonis () 函数 则 提供 了 非 参数 MANOVA 的 等 同形 式 。 
代码 清单 9-10 是 wilks .test () 的 应用。 


代码 清单 9-10 ”稳健 单 因素 MANOVA 


library (rrcov) 
> Wilks.test(y,shelf,method="mcd") 














Robust One-way MANOVA (Bartlett Chi2) 


data: xXx 
Wilks' Lambda = 0.511, Chi2-Value = 23.96, DF = 4.98, p-value = 
0.0002167 
sample estimates: 
calories fat sugars 
1 L220 OTOL 5.66 
2 128.. T1185 ;54 
3 Te OS 2 L0035 




















从 结果 来 看 ， 稳 健 检验 对 离 群 点 和 违反 MANOVA 假 设 的 情况 不 敏感 ， 而 且 再 一 次 验证 了 存 
储 在 货架 项 部、 中 部 和 底部 的 谷物 营养 成 分 含量 不 同 。 


9.8 用 回归 来 做 ANOVA 


在 9.2 节 中 ,我们 提 到 ANOVA 和 回归 都 是 广义 线性 模型 的 特例 。 因 此 ， 本 章 所 有 的 设计 都 可 
以 用 lm () 函数 来 分 析 。 但 是 ,为 了 更 好 地 理解 输出 结果 ， 需 要 弄 明 白 在 拟 合 模型 时 ，R 是 如 何 处 
理 类 别 型 变量 的 。 


以 9.3 节 的 单 因素 ANOVA 问 题 为 例 ， 即 比较 五 种 降低 胆固醇 药物 疗法 (trt ) 的 影响 。 


> library (multcomp) 
> levels (cholesterolstrt) 




















[1] "1itime" "2times" "4times" "drugD" "drugE" 
首先 ， 用 aov () 函数 拟 合 模型 : 


> fit.aov <- aov(response ~ trt, data=cholesterol) 
> summary (fit.aov) 


DE Sum Sq Mean Sq F value Pr (>F) 
oh el 4 TDL 337.84 32:r433 -99.0819e=13 * 大 * 
Residuals 45 468.75 T0042 


现在 ,用 lm() 函数 拟 合同 样 的 模型 。 结 果 见 代码 清单 9-11。 
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代码 清单 9-11 解决 9.3 节 ANOVA 问 题 的 回归 方法 
> fit.lm <- lm(response ~ trt, data=cholesterol) 
> summary (fit.1m) 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) G782 1 02.L S665 88 
trt2times 3.443 1.443 2.385 人 502135 六 
trt4times 6-593 L443 4.568 3382=05， 关 尖 大 
trtdrugD QD.9 1.443 6.637 353E08 交 * 交 
trtdrugE 15% L166 TA43. T0507 4.0.8e -13 交大 


Residual standard error: 3.227 on 45 degrees of freedom 
Multiple R-squared: 0.7425, Adjusted R-squared: 0.7196 
F-statistic: 32.43 on 4 angd 45 DF, p-value: 9.819e-13 


我 们 能 发 现 什 么 ?因为 线性 模型 要 求 预测 变量 是 数值 型 ， 当 lm () 函数 碰 到 因子 时 ， 它 会 用 
一 系列 与 因子 水 平 相对 应 的 数值 型 对 照 变量 来 代替 因子 。 如 果 因 子 有 K 个 水 平 ,将 会 创建 和 1 个 对 
照 变量 。R 提 供 了 五 种 创建 对 照 变 量 的 内 置 方法 〈 见 表 9-6 )， 你 也 可 以 自己 重新 创建 〈 此 处 不 做 
介绍 )。 默认 情况 下 ， 对 照 处 理 用 于 无 序 因 子 ， 正 交 多 项 式 用 于 有 序 因子 。 


表 9-6 ”内 置 对 照 




















































































































对 照 变量 创建 方法 描 述 

CR 人 LSI 第 二 个 水 平 对 照 第 一 个 水 平 , 第 三 个 水 平 对 照 前 两 个 的 均值 , 第 四 个 水 平 对 照 前 三 个 的 均值 ， 
以 此 类 推 

Contr. poly 基于 正 交 多 项 式 的 对 照 ， 用 于 趋势 分 析 ( 线性 、 二 次 、 三 次 等 ) 和 等 距 水 平 的 有 序 因子 

contr. sum 对 照 变量 之 和 限制 为 0。 也 称 作 偏差 找 对 ， 对 各 水 平 的 均值 与 所 有 水 平 的 均值 进行 比较 

人 各 水 平 对 照 基线 水 平 ( 默认 第 一 个 水 平 )。 也 称 作 虚拟 编码 

contT .SAS 类 似 于 contr.treatment ， 只 是 基线 水 平 变 成 了 最 后 一 个 水 平 。 生 成 的 系数 类 似 于 大 部 分 
SAS 过 程 中 使 用 的 对 照 变量 

















以 对 照 (treatment contrast ) 为 例 ， 因 子 的 第 一 个 水 平 变 成 了 参考 组 ， 随 后 的 变量 都 以 它 为 
标准 。 可 以 通过 contrasts () 函数 查看 它 的 编码 过 程 


> Contrasts (cholesterolStrt) 
2times 4times drugD drugE 





O 





ltime 0 0 0 0 
2times 和 0 
4times 0 1 0 0 
drugD 0 0 1 0 
drugE 0 0 0 1 


若 患 者 处 于 arugD 条 件 下 ,变量 arugD 等 于 1， 其 他 变量 2times、4times 和 drugE 都 等 于 0。 
无 需 列 出 第 一 组 的 变量 值 ， 因 为 其 他 四 个 变量 都 为 0， 这 已 经 说 明 患 者 处 于 1time 条 件 。 

在 代码 清单 9-11 中， 变量 trt2times 表 示 水 平 1time 和 2times 的 一 个 对 照 。 类 似 地 ， 
trt4times 是 1time 和 4times 的 一 个 对 照 ， 其 余 以 此 类 推 。 从 输出 的 概率 值 来 看 ， 各 药物 条 件 
与 第 一 组 (1time ) 显著 不 同 。 
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通过 设 定 contrasts 选 项 ， 可 以 修改 lm() 中 默认 的 对 照 方法 。 例 如 ， 若 使 用 Helmert 对 照 : 
fit.lm <- lm(response ~ trt, data=cholesterol, contrasts="contr.helmert") 

还 能 通过 options () 函数 修改 R 会 话 中 的 默认 对 照 方法 ， 例 如 ， 
options (Contrasts = c("contr.SAS", "contr.helmert")) 


设 定 无 序 因 子 的 默认 对 比方 法 为 contr.SAS， 有 序 因 子 的 默认 对 比方 法 为 contr.helmert。 虽 
然 我 们 一 直 都 是 在 线性 模型 范围 中 讨论 对 照 方法 的 使 用 ， 但 是 在 R 中 ， 你 完全 可 以 将 其 应 用 到 其 
他 模型 中 ， 包 括 第 13 章 将 会 介绍 的 广义 线性 模型 。 

















9.9 小 结 


本 童 中 , 我 们 回顾 了 基本 实验 和 准 实验 设计 的 分 析 方 法 , 包括 ANOVA/ANCOVA/MANOVA。 
然后 通过 组 内 和 组 间 设 计 的 示例 介绍 了 基本 方法 的 使 用 ， 如 单 因素 ANOVA 、 单 因素 ANCOVA、 
双 因 素 ANOVA、 重 复 测量 ANOVA 和 单 因 素 MANOVA。 

除了 这 些 基本 分 析 , 我 们 还 回顾 了 模型 的 假设 检验 , 以 及 应 用 多 重 比较 过 程 来 进行 综合 检验 
的 方法 。 最 后 ， 对 各 种 结果 可 视 化 方法 也 进行 了 探索 。 如 果 你 对 用 R 分 析 DOE ( Design Of 
Experiment, 实验 设计 ) 感 兴趣 , 请 参阅 “CRAN Task View: Design of Experiments (DoE) & Analysis 
of Experimental Data”( 2009 ) "中 Groemping 提 供 的 方法 。 

第 8 章 和 第 9 章 已 经 涵盖 了 各 领域 研究 者 常用 的 统计 方法 ,在 下 一 章 中 ,我 们 将 介绍 功效 分 析 。 
功效 分 析 可 以 帮助 我 们 在 给 定 置 信 度 的 情况 下 , 判断 达到 要 求 效 果 所 需 的 样本 大 小 , 这 一 点 对 于 
研究 设计 非常 重要 。 





















































QD CRAN 上 实验 设计 的 Task View 页 面 地 址 为 http://cran.r-project.org/web/views/ExperimentalDesign.html。 一 一 译 者 注 














功效 分 析 








本 章 内 容 

口 判断 所 需 样本 量 
口 计算 效应 值 

口 评价 统计 功效 





作为 统计 咨询 师 ， 我 经 常会 被 问 到 这 样 一 个 问题 :“ 我 的 研究 到 底 需 要 多 少 个 受 试 者 呢 ? ” 
或 者 换个 说 法 :“ 对 于 我 的 研究 ， 现 有 x 个 可 用 的 受 试 者 ， 这 样 的 研究 值得 做 吗 ? ”这 类 问题 都 可 
用 通过 功效 分 析 (power analysis ) 来 解决 ， 它 在 实验 设计 中 占有 重要 地 位 。 

功效 分 析 可 以 帮助 在 给 定 置 信和 度 的 情况 下 , 判断 检测 到 给 定 效 应 值 时 所 需 的 样本 量 。 反 过 来 ， 
它 也 可 以 帮助 你 在 给 定 置信 和 度 水 平 情 况 下 , 计算 在 某 样本 量 内 能 检测 到 给 定 效应 值 的 概率 。 如 果 
概率 低 得 难以 接受 ， 修 改 或 者 放弃 这 个 实验 将 是 一 个 明智 的 选择 。 

在 本 章 中 ， 你 将 学 习 如 何 对 多 种 统计 检验 进行 功效 分 析 ,， 包括 比例 检验 、t 检 验 、 卡 方 检验 、 
平衡 的 单 因素 ANOVA 、 相 关 性 分 析 ， 以 及 线性 模型 分 析 。 由 于 功效 分 析 针 对 的 是 假设 检验 ， 我 
们 将 首先 简单 回顾 零 假 设 显 著 性 检验 (NHST ) 过 程 ， 然 后 学 习 如 何 用 R 进 行 功效 分 析 ， 主 要 关 
注 pwr 包 。 最 后 ， 我 们 还 会 学 习 R 中 其 他 可 用 的 功效 分 析 方 法 。 





















































10.1 假设 检验 速 览 


为 了 帮助 你 逐步 理解 功效 分 析 , 我 们 将 首先 简要 回顾 统计 假设 检验 的 概念 。 如 果 你 有 统计 学 
背景 ， 可 直接 从 10.2 节 开始 阅读 。 

在 统计 假设 检验 中 ， 首 先 要 对 总 体 分 布 参数 设 定 一 个 假设 ( 零 假 设 ，Ho )， 然 后 从 总 体 分 布 
中 抽样 ， 通 过 样本 计算 所 得 的 统计 量 来 对 总 体 参 数 进行 推断 。 假 定 零 假设 为 真 ， 如 果 计 算 获 得 观 
测 样本 的 统计 量 的 概率 非常 小 , 便 可 以 拒绝 原 假设 ,接受 它 的 对 立 面 ( 称 作 备 择 假设 或 者 研究 假 
设 ，Hi )。 

下 面 通 过 一 个 例子 来 阐述 整个 过 程 。 假 设 你 想 评 价 使 用 手机 对 驾驶 员 反 应 时 间 的 影响 , 则 有 零 
假设 为 Ho: wo=0， 其 中 必 是 驾驶 员 使 用 手机 时 的 反应 时 间 均 值 ，j 是 驾驶 员 不 使 用 手机 时 的 反 
应 时 间 均 值 ( 此 处 ， yi-yw 即 感 兴趣 的 总 体 参数 )。 假 如 你 拒绝 该 零 假 设 ， 备 择 假设 或 研究 假设 就 
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是 Hi: ju-y2#0。 这 等 同 于 pus， 即 两 种 条 件 下 反应 时 间 的 均值 不 相等 。 


现 挑 选 一 个 由 不 同 个 体 构 成 的 样本 , 将 他 们 随机 分 配 到 任意 一 种 情况 中 。 第 一 种 情况 , 参与 
者 边 打手 机 , 边 在 一 个 模拟 器 中 应 对 一 系列 驾驶 挑战 ; 第 二 种 情况 ,参与 者 在 一 个 模拟 器 中 完成 
一 系列 相同 的 驾驶 挑战 ,但 不 打手 机 。 然 后 评估 每 个 个 体 的 总 体 反 应 时 间 。 




















基于 样本 数据 ， 可 计算 如 下 统计 量 : 


Vn 


(ZX -x)/ 训 ] 























其 中 ，X 和 XX, 分 别 表示 两 种 情况 下 的 反应 时 间 均 值 。S 是 样本 标准 差 ，n 是 各 条 件 下 的 参与 
者 数目 。 如 果 零 假设 为 真 , 那么 可 以 假定 反应 时 间 呈 正 态 分 布 , 该 样本 统计 量 服从 2n-2 自 由 度 的 
t 分 布 。 依 据 此 事实 ， 你 能 计算 获得 当前 或 更 大 样本 统计 量 的 概率 。 但 如 果 概 率 (p ) 比 预先 设 定 
的 立 值 小 ( 如 p<0.05 ), 那么 你 便 可 以 拒绝 原 假设 接受 备 择 假设 。 预 先 约定 的 阔 值 ( 0.05 ) 称 为 检 





验 的 显著 性 水 平 ( significance level )。 





























注意 , 这 里 是 使 用 取 自 总 体 的 样本 数据 来 对 总 体 做 推断 。 你 的 零 假 设 是 所 有 打手 机 的 驾驶 员 
的 反应 时 间 均 值 不 同 于 所 有 ( 而 不 仅仅 是 你 样本 中 ) 不 打手 机 的 驾驶 员 的 反应 时 间 均 值 。 你 的 判 





断 有 下 列 四 种 可 能 的 结果 
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使 用 手机 影响 反应 时 间 。 

















口 如 果 零 假设 是 错误 的 ， 统 计 检 验 也 拒绝 它 ， 那 么 你 便 做 了 一 个 正确 的 判断 。 你 可 以 断言 





口 如 果 零 假设 是 真实 的 ， 你 没有 拒绝 它 ， 那 么 你 上 
不 受 打 手机 的 影响 。 











影响 反应 时 间 的 结论 ， 而 实际 上 不 会 。 














间 ， 但 你 却 没有 判断 出 来 。 
每 种 结果 的 解释 见 下 表 。 








了 次 做 了 一 个 正确 的 判断 。 说 明 反 应 时 间 








口 如 果 零 假设 是 真实 的 ， 但 你 却 拒绝 了 它 ， 那 么 你 便 犯 了 工 型 错误 。 你 会 得 到 使 用 手机 会 


口 如 果 零 假设 是 错误 的 ， 而 你 没有 拒绝 它 ， 那 么 你 便 犯 了 开 型 错误 。 使 用 手机 影响 反应 时 











判断 
拒绝 H， 不 拒绝 H。 | 

真实 的 H, 为 丰 1 型 错误 E 确 | 
H 为 候 正确 型 错误 | 











零 假 设 显著 性 检验 中 的 争论 
零 假 设 显 著 性 检验 并 不 是 没有 争议 的 , 批评 者 早 就 提出 了 一 大 堆 质疑 , 特别 是 有 关 它 在 心 
理学 领域 中 的 应 用 。 他 们 指出 对 p 值 存在 一 个 广泛 的 误解 ， 它 依赖 的 统计 显著 性 比 实际 显著 性 
大 ， 因 此 事实 上 零 假 设 永 远 不 可 能 为 真 ， 对 于 足够 大 的 样本 也 总 是 被 拒绝 ， 这 会 造成 许多 逻辑 
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本 书 不 会 深度 探讨 这 一 主题 ， 有 兴趣 的 读者 可 以 参考 Harlow、Mulaik 和 Steiger 的 书 J1at 太 
There Were No Significance Tests? ( 1997 )。 





在 研究 过 程 时 , 研究 者 通常 关注 四 个 量 : 样本 大 小 、 显 著 性 水 平 、 功 效 和 效应 值 ( 见 图 10-1 )。 

口 样本 大 小 指 的 是 实验 设计 中 每 种 条 件 /组 中 观测 的 数目 。 

口 显著 性 水 平 ( 也 称 为 alpha ) 由 工 型 错误 的 概率 来 定义 。 也 可 以 把 它 看 作 发 现 效应 不 发 生 

的 概率 。 

口 功效 通过 1 减 去 下 型 错误 的 概率 来 定义 。 我 们 可 以 把 它 看 作 真 实效 应 发 生 的 概率 。 

口 效应 值 指 的 是 在 备 择 或 研究 假设 下 效应 的 量 。 效 应 值 的 表达 式 依赖 于 假设 检验 中 使 用 的 
统计 方法 。 









































图 10-1 在 功效 分 析 中 研究 设计 的 四 个 基本 量 。 给 定 任意 三 个 ， 你 可 以 推算 第 四 个 


虽然 研究 者 可 以 直接 控制 样本 大 小 和 显著 性 水 平 ， 但 是 对 于 功效 和 效应 值 的 影响 却 是 间接 
的 。 例 如 ， 放 宽 显 著 性 水 平时 〈 换 句 话说， 使 得 拒绝 原 假 设 更 容易 时 )， 检 验 的 功效 便 会 增加 。 
类 似 地 ， 样 本 量 增加 ， 功 效 也 会 增加 。 

通常 来 说 , 研究 目标 是 维持 一 个 可 接受 的 显著 性 水 平 ， 尽量 使 用 较 少 的 样本 ,然后 最 大 化 统 
计 检 验 的 功效 。 也 就 是 说 ,最 大 化 发 现 真 实效 应 的 几率 ,并 最 小 化 发 现 错 误 效 应 的 几率 ,同时 把 
研究 成 本 控制 在 合理 的 范围 内 。 

四 个 量 (样本 大 小 、 显 著 性 水 平 、 功 效 和 效应 值 ) 紧密 相关 ， 给 定 其 中 任意 三 个 量 , 便 可 推 
算 第 四 个 量 。 接 下 来 ， 本 童 将 利用 这 一 点 进行 各 种 各 样 的 功效 分 析 。 下 一 节 将 学 习 如 何 用 R 中 的 
pwr 包 实现 功效 分 析 。 随 后 ， 我 们 还 会 简要 回顾 一 些 专 门 在 生物 学 和 遗传 学 中 使 用 的 功效 函数 。 


10.2 ”用 pwr 包 做 功效 分 析 


Stéphane Champely 开 发 的 pwr 包 可 以 实现 Cohen ( 1988 ) 描述 的 功效 分 析 。 表 10-1 列 出 了 一 些 
非常 重要 的 函数 。 对 于 每 个 函数 , 用 户 可 以 设 定 四 个 量 ( 样本 大 小 、 显 著 性 水 平 、 功 效 和 效应 值 ) 
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中 的 三 个 量 ， 第 四 个 量 将 由 软件 计算 出 来 。 
表 10-1 pwzr 包 中 的 函数 


























函数 功效 计算 的 对 象 

pwr .2p.test () 两 比例 (n 相等 ) 

pwr .2p2n.test () 两 比例 (7 不 相等 ) 

Dwr .anova.test () 平衡 的 单 因 素 ANOVA 

bwr .chisdq.test () 卡 方 检验 

pwr.f2.test1() 广义 线性 模型 

pwr.p.test() 比例 ( 单 样本 ) 

pwr.r.test() 相关 系数 

pwr.t.test() t 检 验 ( 单 样本 、 两 样本 、 配 对 ) 
pwr.t2n.test() t 检 验 (nn 不 相等 的 两 样本 ) 








四 个 量 中 , 效应 值 是 最 难 规定 的 。 计算 效应 值 通常 需要 一 些 相 关 估 计 的 经 验 和 对 过 去 研究 知 
识 的 理解 。 但 是 如 果 在 一 个 特定 的 研究 中 ， 你 对 需要 的 效应 值 一 无 所 知 ， 该 怎么 做 呢 ?”10.2.7 节 
将 会 讨论 这 个 难题 。 本 节 接 下 来 介绍 pwr 包 在 常见 统计 检验 中 的 应 用 。 在 调用 以 上 函数 时 ， 请 确 
定 已 经 安装 并 载 人 pwr 包 。 




















10.2.1 tt 检验 
对 于 {检验 ，pwr .t .test () 函数 提供 了 许多 有 用 的 功效 分 析 选 项 ， 格 式 为 : 


pwr.t.test (n=, d=, sig.level=, power=, type=, alternative=) 


其 中 元 素 解释 如 下 。 
口 n 为 样本 大 小 。 
口 a 为 效应 值 ， 即 标准 化 的 均值 之 差 。 


4= 人 全 其 中 ,p= 组 1 均值 
Hp= 组 2 均值 
0 = 误差 方差 
口 sig.level 表 示 显 著 性 水 平 ( 默认 为 0.05 )。 
口 power 为 功效 水 平 。 
口 type 指 检验 类 型 ， 双 样本 t 检 验 ("two .sample" )、 单 样本 t 检 验 ( "one.sample" ) 或 
相依 样本 {检验 ("pairegd" )。 默 认为 双 样 本 t 检 验 。 
口 "alternative" 指 统计 检验 是 双 侧 检验 ("two .siqded" ) 还 是 单 侧 检 验 ("less" 或 
"greater" )。 默 认为 双 侧 检验 。 
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让 我 们 举例 说 明 函 数 的 用 法 。 仍 继续 10.1 节 使 用 手机 与 驾驶 反应 时 间 的 实验 ,假定 将 使 用 双 
尾 独立 样本 t 检 验 来 比较 两 种 情况 下 驾驶 员 的 反应 时 间 均 值 。 

如 果 你 根据 过 去 的 经 验 知道 反应 时 间 有 1.25s 的 标准 偏差 , 并 认定 反应 时 间 1s 的 差 值 是 巨大 的 
差异 ， 那 么 在 这 个 研究 中 ， 可 设 定 要 检测 的 效应 值 为 4=1/1.25=0.8 或 者 更 大 。 男 外 ， 如 果 差 异 存 
在 ,你 希望 有 90% 的 把 握 检测 到 它 ， 由 于 随机 变异 性 的 存在 ， 你 也 希望 有 95% 的 把 握 不 会 误 报 差 
异 显著 。 这 时 ， 对 于 该 研究 需要 多 少 受 试 者 呢 ? 

将 这 些 信息 输入 pwr.t.test 1() 函数 中 ， 形 式 如 下 : 























> library (pwr) 
> pwr.t.test(d=.8, sig.level=.05, power=.9, type="two.sample", 
alternative="two.sided") 
Two-sample 七 test power calculation 


3 人 
di S0828 
sig.level = 0.05 
power = 0.9 
alternative = two.sided 


NOTE: n is number in *each* group 

结果 表明 ， 每 组 中 你 需要 34 个 受 试 者 ( 总 共 68 人 )， 这 样 才能 保证 有 90% 的 把 握 检 测 到 0.8 的 
效应 值 ， 并 且 最 多 5% 的 可 能 性 会 误 报 差 异 存在 。 

现在 变化 一 下 这 个 问题 。 假 定 在 比较 这 两 种 情况 时 ， 你 想 检测 到 总 体 均值 0.5 个 标准 偏差 的 
差异 ， 并 且 将 误 报 差异 的 几率 限制 在 1% 内 。 此 外 ， 你 能 获得 的 受 试 者 只 有 40 人 。 那 么 在 该 研究 
中 ， 你 能 检测 到 这 么 大 总 体 均值 差异 的 概率 是 多 少 呢 ? 

假定 每 种 情况 下 受 试 者 数目 相同 ， 可 以 进行 如 下 操作 : 


> pwr.t.test (n=20, d=.5, sig.level=.01, type="two.sample", 
alternative="two.sided") 



































Two-sample 七 test power calculation 


I S20 
二 
sig.level = 0.01 
power = 0.14 
alternative = two.sided 


OTE: n is number in *each* group 

结果 表明 ， 在 0.01 的 先 验 显著 性 水 平 下 ， 每 组 20 个 受 试 者 ， 因 变量 的 标准 差 为 1.25s， 有 低 于 
14% 的 可 能 性 断言 差 值 为 0.625s 或 者 不 显著 ( 4=0.5=0.625/1.25 )。 换 句 话 说 ,你 将 有 86% 的 可 能 1 
错过 你 要 寻找 的 效应 值 。 因 此 ， 可 能 需要 慎重 考虑 要 投入 到 该 研究 中 的 时 间 和 精力 。 

上 面 的 例子 都 是 假定 两 组 中 样本 大 小 相等 ， 如 果 两 组 中 样本 大 小 不 同 ， 可 用 函数 : 


pwr.t2n.test (nl=, n2=, d=, sig.level=, power=, alternative=) 
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此 处 ，n1 和 n2 是 两 组 的 样本 大 小 ， 其 他 参数 含义 与 pwr.t.test() 的 相同 。 可 以 尝试 改变 
pwr.t2n.test ()" 函 数 中 的 参数 值 ， 看 看 输出 的 效应 值 如 何 变 化 。 


10.2.2 方差 分 析 
pwr .anova.test () 函数 可 以 对 平衡 单 因素 方差 分 析 进 行 功效 分 析 。 格 式 为 : 


pwr.anova.test (k=, n=, f=, sig.level=, power=) 
其 中 ，k 是 组 的 个 数 ，n 是 各 组 中 的 样本 大 小 。 
对 于 单 因素 方差 分 析 ， 效 应 值 可 通过 f 来 衡量 : 




















天 
Dp;x (4 -10)’ 
a 其 中 ,pj;= n/N 
(ea NA 
ni;= 组 i 的 观测 数目 
N= 总 观测 数目 

















Hi=— 组 i 均值 
/三 总 体 均 值 


0 = 组 内 误差 方差 
让 我 们 举例 说 明 函 数 用 法 。 现 对 五 个 组 做 单 因 素 方差 分 析 , 要 达到 0.8 的 功效 , 效应 值 为 0.25， 
并 选择 0.05 的 显著 性 水 平 ， 计 算 各 组 需要 的 样本 大 小 。 代 码 如 下 : 


> pwr.anova.test (k=5, f=.25, sig.level=.05, power=.8) 








Balanced one-way analysis of variance power calculation 


5 
ES 
下 “三 ,5D 5 光 写 
sig.level = 0.05 
power = 0.8 


NOTE: n is number in each group 


结果 表明 ， 总 样本 大 小 为 53x39， 即 195。 注 意 ， 本 例 中 需要 估计 在 同方 差 时 五 个 组 的 均值 。 
如 果 你 对 上 述 情况 都 一 无 所 知 ，10.2.7 节 提供 的 方法 可 能 会 有 所 帮助 。 


10.2.3 ”相关 性 
pwr.r.test() 气 数 可 以 对 相关 性 分 析 进 行 功效 分 析 。 格 式 如 下 : 
pwr.r.test (n=, r=, sig.level=, power=, alternative=) 














其 中 ，n 是 观测 数 日 ，r 是 效应 值 (通过 线性 相关 系数 衡量 )，sig .level 是 显著 性 水 平 ，power 

















中 R 中 函数 名 称 后 面 最 好 加 上 0。 一 一 译 者 注 
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是 功效 水 平 , alternative 指 定 显著 性 检验 是 双边 检验 ("tow.sigded" ) 还 是 单 边 检验 ( "less" 


或 "greater" )。 





假定 正在 研究 抑郁 与 孤独 的 关系 。 你 的 零 假设 和 研究 假设 为 : 


Ho: p < 0.25 和 Hi: p > 0.25 





其 中 ，p 是 两 个 心理 变量 的 总 体 相 关 性 大 小 。 你 设 定 显著 性 水 平 为 0.05， 而 且 如 果 Ho 是 错误 的 ， 
你 想 有 90% 的 信心 拒绝 Ho， 那 么 研究 需要 多 少 观测 呢 ? 下 面 的 代码 给 出 了 答案 : 


> pwr.r.test (r=.25, sig.level=.05, power=.90, alternative="greater") 


approximate correlati 


RE 

Re-0m 2 

sig.level = 0.05 

power = 0.9 
alternative = greater 








on power calculation (arctangh transformation) 


因此 ， 要 满足 以 上 要 求 ， 你 需要 134 个 受 试 者 来 评价 抑郁 与 孤独 的 关系 ， 以 便 在 霉 假设 为 假 


的 情况 下 有 90% 的 信心 拒绝 它 。 
10.2.4 ”线性 模型 


对 于 线性 模型 ( 比如 多 元 回归 )，pwr . £2 .test () 函数 可 以 完成 相应 的 功效 分 析 ， 格 式 为 : 
pwr.f2.test (u=, v=, f2=, sig.level=, power=) 


其 中 ，u 和 wv 分 别 是 分 子 自由 度 和 分 母 自由 度 ，f2 是 效应 值 
;__R 其 中 ,RR? 一 多 重 相关 性 的 总 体 平方 人 





R’”,—R? 








= 一 人 其 中 ,Rw = 集合 4 中 变量 对 总 体 方差 的 解释 率 ” 





2 
1 一 R， 人 
AB 一 


当 要 评价 一 组 预测 变量 对 结 细 





集合 4 和 8 中 变量 对 总 体 方差 的 解释 率 
的 影响 程度 时 , 适宜 用 第 一 个 公式 来 计算 f2; 当 要 评价 一 组 预 











测 变量 对 结果 的 影响 超过 第 二 组 变量 〈 协 变量 ) 多 少时 ， 适 宜 用 第 二 个 公式 。 

现 假设 你 想 研究 老板 的 领导 风格 对 员工 满意 度 的 影响 , 是 否 超过 薪水 和 工作 小 费 对 员工 满意 
度 的 影响 。 领导 风格 可 用 四 个 变量 来 评估 ， 薪水 和 小 费 与 三 个 变量 有 关 。 过 去 的 经 验 表 明 ， 薪水 
和 小 费 能 够 解释 约 30% 的 员工 满意 度 的 方差 。 而 从 现实 出 发 ， 领 导 风 格 至 少 能 解释 35% 的 方差 。 
假定 显著 性 水 平 为 0.05， 那 么 在 90% 的 置信 度 情况 下 ， 你 需要 多 少 受 试 者 才能 得 到 这 样 的 方差 贡 








献 率 呢 ? 

















此 处 ，sig.level=0.05，power=0.90，u=3 (总 预测 变量 数 减 去 集合 8 中 的 预测 变量 数 )， 


效应 值 为 E2=(0.35-0.30)/(1-0.35) = 0.0769。 将 这 些 信息 输入 到 函数 中 : 








Q 也 常 称 作 方 差 贡 献 率 。 一 一 译 者 注 
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> pwr.f2.test (u=3, f2=0.0769, sig.level=0.05, power=0.90) 


Multiple regression power calculation 


Ue 
V = 184.2426 
下 2 人 na0769 
sig.level = 0.05 
power = 0.9 








在 多 元 回归 中 ,分 母 的 自由 度 等 于 N-f1,N 是 总 观测 数 ,是 预测 变量 数 。 本 例 中 ,N-7-1=185， 
即 需 要 样本 大 小 N=185+7+1=193。 

















10.2.5 ”比例 检验 
当 比 较 两 个 比例 时 ， 可 使 用 pwr .2p .test () 也 数 进行 功效 分 析 。 格 式 为 : 


pwr.2p.test (h=, n=, sig.level=, power=) 


其 中 ，h 是 效应 值 ，n 是 各 组 相同 的 样本 量 。 效 应 值 h 定 义 如 下 : 
h= 2arcsin(\/p,) = 2arcsin(V/P,) 


可 用 ES.h (pl1，p2) 函数 进行 计算 。 

当 各 组 中 bn 不 相同 时 ， 则 使 用 函数 : 

pwr.2p2n.test (h=, nil=, n2=, sig.level=, power=) 
alternative= 选 项 可 以 设 定 检 验 是 双 尾 检验 ("two.sided" ) 还 是 单 尾 检验 ("less" 或 
"greater" )。 默 认 是 双 尾 检验 。 

假定 你 对 某 流行 药物 能 缓解 60% 使 用 者 的 症状 感到 怀疑 。 而 一 种 更 贵 的 新 药 如 果 能 缓解 65% 
使 用 者 的 症状 , 就 会 被 投放 到 市 场 中 。 此 时 , 在 研究 中 你 需要 多 少 受 试 者 才能 够 检测 到 两 种 药物 
存在 这 一 特定 的 差异 ? 

假设 你 想 有 90% 的 把 握 得 出 新 药 更 有 效 的 结论 , 并 且 希 望 有 95% 的 把 握 不 会 误 得 结论 。 男 外 ， 
你 只 对 评价 新 药 是 否 比 标准 药物 更 好 感 兴趣 ， 因 此 只 需 用 单 边 检 验 ， 代 码 如 下 : 


> pwr.2p.test (h=ES.h(.65, .6), sig.level=.05, power=.9, 
alternative="greater") 



























































Difference of proportion power calculation for binomial 
distribution (arcsine transformation) 
-051033347 


Ie .G0007 
sig.level = 0.05 
power = 0.9 
alternative = greater 


NOTE: same sample sizes 
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根据 结果 可 知 ， 为 满足 以 上 要 求 ,在 本 研究 中 需要 1605 个 人 试用 新 药 ，1605 个 人 试用 已 有 
药物 。 





10.2.6 卡 方 检验 
卡 方 检验 常常 用 来 评价 两 个 类 别 型 变量 的 关系 。 典 型 的 零 假 设 是 变量 之 间 独 立 , 备 择 假设 是 
不 独立 。pwr .chisq.test () 函数 可 以 评估 卡 方 检验 的 功效 、 效 应 值 和 所 需 的 样本 大 小 。 格式 为 : 
pwr.chisq.test (w=, N=, df=, sig.level=, power=) 


其 中 ，w 是 效应 值 ，N 是 总 样本 大 小 ，af 是 自由 度 。 此 处 ， 效 应 值 w 定 义 如 下 : 





















































a Sp) 其 中 ，p0; = Ho 时 第 i 单元 格 中 的 概率 

人 p1;= HI 时 第 阐 元 格 中 的 概率 

此 处 从 1 到 六 进行 求 和 ， 连 加 号 上 的 m 指 的 是 列 联 表 中 单元 格 的 数目 。 函 数 Es .w2 (P) 可 以 计 
算 双 因素 列 联 表 中 备 择 假设 的 效应 值 ，p 是 一 个 假设 的 双 因 素 概率 表 。 
举 一 个 简单 的 例子 , 假设 你 想 研 究 人 种 与 工作 晋升 的 关系 。 你 预期 样本 中 70% 是 白 种 人 , 10% 
是 美国 黑人 ，20% 是 西班牙 裔 人 。 而 且 ， 你 认为 相 比 30% 的 美国 黑人 和 50% 的 西班牙 裔 人 ，60% 
的 白 种 人 更 容易 晋升 。 研 究 假设 的 晋升 概率 如 表 10-2 所 示 。 


表 10-2 ”研究 假设 下 预期 晋升 的 人 群 比 例 










































































人 种 晋升 比例 未 晋升 者 比例 
白 种 人 0.42 0.28 

美国 黑人 0.03 0.07 

西班牙 裔 0.10 0.10 











从 表 中 看 到 , 你 预期 总 人 数 的 42% 是 晋升 的 白 种 人 (0.42=0.70x0.60 )， 总 人 数 的 7% 是 未 晋升 
的 美国 黑人 (0.07=0.10x0.70 )。 让 我 们 取 0.05 的 显著 性 水 平和 0.90 的 预期 功效 水 平 。 双 因素 列 联 
表 的 自由 度 为 -1)(c-1), r 是 行 数 ，c 是 列 数 。 编 写 如 下 代码 ， 你 可 以 计算 假设 的 效应 值 : 


> prob <- matrix(c(.42, .28, .03, .07, .10, .10), byrow=TRUE, nrow=3) 
> ES.w2 (prob) 











[1] 0.1853198 
使 用 该 信息 ， 你 又 可 以 计算 所 需 的 样本 大 小 : 


> pwr.chisq.test (w=.1853, df=2, sig.level=.05, power=.9) 











Chi squared power calculation 


W: SS, ‘0: B853 
N =.368.531Y7 
df 三 2 
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sig.level 


0%05 
power :9 


NOTE: N is the number of observations 


结果 表明 ， 在 既定 的 效应 值 、 功 效 水 平和 显著 性 水 平 下 ， 该 研究 需要 369 个 受 试 者 才能 检验 
人 种 与 工作 晋升 的 关系 。 


10.2.7 ”在 新 情况 中 选择 合适 的 效应 值 


功效 分 析 中 ， 预 期 效应 值 是 最 难 决 定 的 参数 。 它 通常 需要 你 对 主题 有 一 定 的 了 解 ， 并 有 相应 
的 测量 经 验 。 例 如， 过 去 研究 中 的 数据 可 以 用 来 计算 效应 值 ， 这 能 为 后 面 深 层次 的 研究 提供 一 些 
参考 。 

但 是 当面 对 全 新 的 研究 情况 , 没有 任何 过 去 的 经 验 可 借鉴 时 , 你 能 做 些 什么 呢 ? 在 行为 科学 
领域 ，Cohen ( 1988 ) 曾 尝 试 提出 一 个 基准 ， 可 为 各 种 统计 检验 划分 “小 ”“ 中 ”“ 大 ”三 种 效应 
值 。 表 10-3 列 出 了 这 些 基 准 值 。 


















































表 10-3 Cohen 效应 值 基准 











统计 方法 效应 值 测量 建议 的 效应 值 基准 
小 中 大 
{检验 a 0.20 0.50 0.80 
方差 分 析 f 0.10 0.25 0.40 
线性 模型 f2 0.02 0.15 0.35 
比例 检验 hn 0.20 0.50 0.80 
卡 方 检验 w 0.10 0.30 0.50 














当 你 对 研究 的 效应 值 一 无 所 知 时 ， 这 个 表 可 给 你 提供 一 些 指引 。 例如 ,假如 你 想 在 0.05 的 显 
著 性 水 平 下 ， 对 5 个 组 、 每 组 25 个 受 试 者 的 设计 进行 单 因素 方差 分 析 ， 那 么 拒绝 错误 零 假设 (也 
就 是 发 现 真实 的 效应 值 ) 的 概率 是 多 大 呢 ? 

使 用 pwr .anova.test () 函数 和 表 10-3 中 的 建议 值 ， 得 到 对 于 小 效应 值 功效 水 平 为 0.118， 
中 等 效应 值 的 为 0.574， 大 效应 值 的 为 0.957。 给 定 样本 大 小 的 限制 ， 在 大 效应 值 时 你 才 可 能 发 现 
要 研究 的 效应 。 

另外 ， 你 一 定 要 牢记 Cohen 的 基准 值 仅 仅 是 根据 许多 社 科 类 研究 得 出 的 一 般 性 建议 ， 对 于 特 
殊 的 研究 领域 可 能 并 不 适用 。 其 他 可 选择 的 方法 是 改变 研究 参数 , 记录 其 对 诸如 样本 大 小 和 功效 
等 方面 的 影响 。 仍 以 五 个 分 组 的 单 因素 方差 分 析 ( 显著 性 水 平 为 0.05 ) 为 例 ， 代 码 清单 10-1 计 算 
了 为 检测 一 系列 效应 值 所 需 的 样本 大 小 ， 结 果 见 图 10-2。 


代码 清单 10-1 单 因素 ANOVA 中 检测 显著 效应 所 需 的 样本 大 小 
library (pwr) 
es <- seq(.1, .5, .01) 
nes <- lengthl(es) 
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samsize <- NULL 

for (i in 1l:nes){ 
result <- pwr.anova.test (k=5, f=es[i], sig.level=.05, power=.9) 
samsize[i] <- ceiling (results$n) 


} 


plot (samsize,es, type="1", lwd=2, col="red", 
ylab="Effect Size", 
xlab="Sample Size (per cell)", 
main="One Way ANOVA with Power=.90 and Alpha=.05") 


One Way ANOVA with Power=.90 and Alpha=.05 


0.5 


0.4 


Effect Size 
0.3 


0.2 


50 100 150 200 250 300 


Sample Size (per cell) 
图 10-2 五 分 组 的 单 因素 ANOVA 中 检测 显著 效应 所 需 的 样本 大 小 〈 假定 0.90 的 功效 和 
0.05 的 显著 性 水 平 ) 


实验 设计 中 , 这 样 的 图 形 有 助 于 估计 不 同 条 件 时 的 影响 值 。 例 如 ， 从 图 形 可 以 看 到 各 组 样本 
量 高 于 200 个 观测 时 ， 再 增加 样本 已 经 效果 不 大 了 。 下 一 节 我 们 将 看 看 其 他 图 形 示例 。 


10.3 ”绘制 功效 分 析 图 形 0 


结束 pwz 包 的 探讨 前 ， 我 们 再 学 习 一 个 涉及 面 更 广 的 绘图 示例 。 a 
性 的 检验 ， 你 想 计算 一 系列 效应 值 和 功效 水 平 下 所 需 的 样本 量 ， 此 时 可 用 pwr .r .test () 函数 和 
for 循 环 来 完成 任务 ， 参 见 代 码 清单 10.2。 
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代码 清单 10-2 ”检验 各 种 效应 值 下 的 相关 性 所 需 的 样本 量 曲线 


library (pwr) 


r <- Seq(.1,.5,.01) 
nr <- length(r) 
pb <= Seq(.4,.9,.1) 


np <- length (p) 


samsize <- array (numeric (nr*np), 


生成 一 系列 相关 
系数 和 功效 值 


dim=c (nr,np)) 


下 GE “(Sir LnB)t 
fo (Ln) 
result <- pwr.r.test(n = NULL, r = r[j] 
sig.level = .05, power = pl[i], | 局 获取 样本 大 小 
alternative = 了 Slide ) 
( 


samsize[j,i] 
} 
} 


) 


xrange <- rangel(r 


yrange <- round(range (samsize)) 
colors <- rainbow(length!( 
yrange, 
xlab="Correlation Coefficient 
ylab="Sample Size 


plot (xrange, 





Oa 


(ED, 


p)) 
type="nr, 


(n)" 


) 


£6r: (1 jn tmp)t 添加 功效 曲线 

lines(r, samsizel[,i], type="1", lwd=2, col=colors[i]) 
abline(v=0, h=seq(0,yrange[2],50), lty=2, col="grey89") 添加 网 格 线 
abline(h=0, v=seq (xrange[1],xrange[2],.02), lty=2, col="gray89") 
title("Sample Size Estimation for Correlation Studies\n 

Sig=0.05 (Two-tailed)") 添加 注释 
legend("topright", title="Power", as.character(p), 
fill=colors) 

代码 清单 10-2 使 用 sea 函 数 来 生成 一 系列 的 效应 值 r( Hi 时 的 相关 系数 ) 0 


后 ， 利 用 两 个 for 循 环 来 循环 读 取 这 些 效应 值 和 功效 水 平 ， 


并 计算 相应 所 需 的 样本 大 小 ， 





然 
其 存 


es 























式 (lines ) 而 不 是 点 
图 形 易于 理解 。 结 果 见 图 
从 图 10-3 中 可 以 看 到 ， 





90% 的 置信 度 下 ， 要 检测 到 相同 的 相关 性 





这 个 方法 便 可 以 用 来 对 许 
最 后 ， 让 我 们 来 看 一 


形式 (points ) 来 添加 功效 曲线 @。 最 后 ， 添 加 网 格 @ 和 图 例 @， 以 使 





10-3。 
在 40% 的 置信 度 下 ， 要 检测 到 0.20 的 相关 性 ， 需 要 约 75 的 样本 量 





县 o 


多 统计 检验 创建 样本 量 和 功效 的 曲线 
下 功效 分 析 可 能 会 用 到 的 其 他 R 函 数 。 





图 。 








在 


需要 大 约 185 个 额外 的 观测 (n=260 )。 做 少许 改动 ， 


10.4 其 他 软件 包 
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图 10-3 ”在 不 同 功效 水 平 下 检测 到 显著 的 相关 性 所 需 的 样本 量 


10.4 其 他 软件 包 


对 于 研究 的 规划 阶段 , R 还 提供 了 不 少 其 他 有 用 的 软件 包 ( 见 表 10-4 )。 它 们 有 的 包含 一 般 性 
度 专 业 化 的 。 最 后 5 个 包 聚 焦 于 基因 研究 中 的 功效 分 析 。 识 别 基 
因 与 可 观测 特征 的 关联 性 的 研究 称 为 全 基因 组 关联 研究 (GWAS )。 例 如 ， 它 们 可 能 关注 为 什么 


的 分 析 工 具 ， 而 有 的 则 可 





人 台 目 .证 


用 征 喇 


一 些 人 会 得 某 种 特殊 类 型 的 心脏 病 。 


表 10-4 ”专业 化 的 功效 分 析 软 件 包 





软 件 包 目 的 
asypow 通过 渐进 似 然 比方 法 计算 功效 
longpower 纵向 数据 中 样本 量 的 计算 
PUKGSD 组 序列 设计 的 功效 分 析 
Pom 混合 模型 中 随机 效应 的 功效 分 析 
powerSurvEpi 流行 病 研 究 的 生存 分 析 中 功效 和 样本 量 的 计算 
powerMediation 线性 、Logistic、 泊 松 和 Cox 回归 的 中 介 效 应 中 功效 和 样本 量 的 计算 
PowerPKg 患 病 同胞 配对 法 和 TDT (Transmission Disequilibrium Test， 传 送 不 均衡 检验 ) 设计 的 功效 分 析 
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( 续 ) 
软 件 包 目 的 
powerGWASin- GWAS 交互 作用 的 功效 计算 
teraction 
pedantics 一 些 有 助 于 种 群 基因 研究 功效 分 析 的 函数 
gap 一 些 病例 队列 研究 设计 中 计算 功效 和 样本 量 的 函数 
ssize. fdr 微 阵列 实验 中 样本 量 的 计算 











最 后 ，MBESS 包 也 包含 了 可 供 各 种 形式 功效 分 析 所 用 的 函数 。 这 些 函 数 主 要 供 行 为 学 、 教 育 
学 和 社会 科学 的 研究 者 使 用 。 














10.5 小结 


在 第 7 章 、 第 8 章 和 第 9 章 , 我 们 探索 了 各 种 各 样 的 统计 假设 检验 R 函 数 。 本 章 中 ,我 们 主要 关 
注 研究 的 筹备 阶段 。 功 效 分 析 不 仅 可 以 帮助 你 判断 在 给 定 置信 和 度 和 效应 值 的 前 提 下 所 需 的 样本 
量 , 也 能 说 明 在 给 定 样本 量 时 检测 到 要 求 效应 值 的 概率 。 对 于 限定 误 报 效应 显著 性 的 可 能 性 (I 
型 错误 ) 和 正确 检测 真实 效应 ( 功效 ) 的 可 能 性 的 平衡 ， 你 也 有 了 一 个 直观 的 了 解 。 

本 音 主 要 内 容 是 pwr 包 中 函数 的 使 用 方法 。 这 些 函数 可 以 对 常见 的 统计 方法 ( 包括 {检验 、 卡 
方 检验 、 比 例 检验 、ANOVA 和 回归 ) 进行 功效 和 样本 量 的 计算 。 本 章 最 后 还 介绍 了 一 些 专业 化 
的 功效 分 析 方 法 。 

典型 的 功效 分 析 是 一 个 交互 性 的 过 程 。 研 究 者 会 通过 改变 样本 量 、 效 应 值 、 预 期 显著 性 水 平 
和 预期 功效 水 平等 参数 , 来 观测 它们 对 于 其 他 参数 的 影响 。 这 些 结果 对 于 研究 的 筹备 是 非常 有 意 
义 的 。 过 去 研究 的 信息 〈 特别 是 效应 值 ) 可 以 帮助 你 在 未 来 设计 更 有 用 和 高 效 的 研究 。 

功效 分 析 的 一 个 重要 附加 效益 是 引起 方向 性 的 转变 , 它 鼓励 不 要 仅仅 关注 于 二 值 型 ( 即 效 应 
存在 还 是 不 存在 ) 的 假设 检验 ， 而 应 该 仔细 思考 效应 值 增加 的 意义 。 期 刊 编辑 越 来 越 多 地 要 求 作 
者 在 报告 研究 结果 的 时 候 既 包含 p 值 又 包含 效应 值 。 因 为 它们 不 仅 能 够 帮助 你 判断 研究 的 实际 意 
义 ， 还 能 提供 用 于 未 来 研究 的 信息 。 

下 一 章 , 我们 将 学 习 一 些 可 视 化 多 元 关系 的 新 方法 。 这 些 可 视 化 的 图 形 不 仅 能 补充 和 加 强 到 
目前 为 止 我 们 已 经 讨论 过 的 分 析 方 法 ， 还 能 为 你 学 习 第 三 部 分 的 高 级 方法 做 一 些 准 备 。 








































































































中 级 绘图 








本 章 内 容 

口 二 元 变量 和 多 元 变量 关系 的 可 视 化 
口 绘制 散 点 图 和 折线 图 

口 理解 相关 图 

口 学 习 马 赛 克 图 和 关联 图 























第 6 章 ( 基本 图 形 ) 中 ,我 们 学 习 了 许多 应 用 广泛 的 图 形 ， 它 们 主要 用 于 展示 单 类 别 型 或 连 
续 型 变量 的 分 布 情况 。 第 8 章 ( 回归 ) 中 ,我 们 又 回顾 了 一 些 用 于 通过 一 系列 预测 变量 来 预测 连 
续 型 结果 变量 的 实用 图 形 方法 。 第 9 章 (方差 分 析 ) 中 ,我 们 学 习 了 其 他 很 有 用 的 绘图 技巧 ， 用 
于 展示 连续 型 结果 变量 的 组 间 差 异 。 从 各 方面 来 看 ， 本 章 将 是 对 之 前 图 形 主 题 的 延伸 与 扩展 。 
本 章 ,， 我 们 主要 关注 用 于 展示 双 变 量 间 关系 〈 二 元 关系 ) 和 多 变量 间 关 系 ( 多 元 关系 ) 的 绘 
图 方法 。 比 如 下 面 的 例子 。 
口 汽车 里 程 与 车 重 的 关系 是 怎样 的 ? 它 是 否 随 着 汽车 的 汽 饶 数目 不 同 而 变化 ? 
口 如 何在 一 个 图 形 中 展示 汽车 里 程 、 车 重 、 排 量 和 后 轴 比 之 间 的 关系 ? 
口 当 展 示 大 数据 集 ( 如 10 000 个 观测 ) 中 的 两 个 变量 的 关系 时 ， 如 何 处 理 数据 点 严重 重叠 的 
情况 ? 换 句 话说 ， 当 图 形变 成 了 一 个 大 黑 点 时 怎么 办 ? 
口 如 何 一 次 性 展示 三 个 变量 间 的 多 元 关系 ( 给 你 一 个 电脑 屏幕 或 一 张 纸 , 并 且 预 算 没 有 《 阿 
凡 达 》 那 么 多 ) ? 
口 如 何 展示 一 些 树 随 时 间 推 移 的 生长 情况 ? 
口 如 何在 单 幅 图 中 展示 一 堆 变 量 的 相关 性 ? 它 又 如 何 帮助 你 理解 数据 的 结构 ? 
口 对 于 “泰坦 尼克 号 ”中 幸存 者 的 数据 ， 如 何 可 视 化 他 们 的 船舱 等 级 、 性 别 和 年 龄 间 的 关 
系 ? 可 以 从 这 样 的 图 形 中 得 出 什么 样 的 结论 ? 
以 上 这 些 问 题 都 可 以 通过 本 章 讲解 的 方法 来 解决 。 我们 将 尽量 使 用 真实 的 数据 集 。 不 过 , 最 
重要 的 问题 还 是 要 掌握 一 般 的 绘图 方法 。 如果 你 对 汽车 属性 或 树木 生长 的 例子 不 感 兴趣 ,可 以 使 
用 自己 的 数据 。 
本 章 将 首先 从 散 点 图 和 散 点 图 矩阵 讲 起 , 然后 探索 各 种 各 样 的 折线 图 。 这些 方法 都 非常 有 和 名， 
在 研究 中 有 广泛 的 应 用 。 接着, 将 回顾 用 于 相关 性 可 视 化 的 相关 图 ,以 及 用 于 类 别 型 变量 中 多 元 
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关系 可 视 化 的 马赛 克 图 。 这 些 方 法 也 非常 实用 , 不 过 了 解 这 些 方法 的 研究 人 员 和 数据 分 析 师 并 不 
多 。 通 过 这 些 绘图 方法 的 示例 ， 你 将 能 更 好 地 理解 数据 ， 并 将 你 的 发 现 展示 给 其 他 人 。 


11.1 散 点 图 


在 之 前 各 章 中 , 我 们 了 解 到 散 点 图 可 用 来 描述 两 个 连续 型 变量 间 的 关系 。 本 节 , 我 们 首先 描 
述 一 个 二 元 变量 关系 (x 对 y )， 然 后 探究 各 种 通过 添加 额外 信息 来 增强 图 形 表达 功能 的 方法 。 接 
着 , 我 们 将 学 习 如 何 把 多 个 散 点 图 组 合 起 来 形成 一 个 散 点 图 矩阵 ,以 便 可 以 同时 浏览 多 个 二 元 变 
量 关 系 。 我 们 还 将 回顾 一 些 数据 点 重 受 的 特殊 案例 , 由 于 重 受 将 会 削弱 图 形 描述 数据 的 能 力 , 所 
以 我 们 将 围绕 该 难点 讨论 多 种 解决 途径 。 最 后 , 通过 添加 第 三 个 连续 型 变量 , 我们 将 把 二 维 图 形 
扩展 到 三 维 ， 包 括 三 维 散 点 图 和 气泡 图 。 它 们 都 可 帮助 你 更 好 地 迅速 理解 三 变量 间 的 多 元 关系 。 

R 中 创建 散 点 图 的 基础 函数 是 plot (x, y) , 其 中 ,x 和 y 是 数值 型 向 量 , 代表 着 图 形 中 的 (x, y) 
点 。 下面 的 代码 清单 展示 了 一 个 例子 。 


代码 清单 11-1 添加 了 最 佳 拟 合 曲 线 的 散 点 图 

attach (mtcars) 

plot (wt, mpg, 
main="Basic Scatter plot of MPG vs. Weight", 
xlab="Car Weight (lbs/1000)", 
ylab="Miles Per Gallon ", pch=19) 

abline(lm(mpg~wt), col="red", lJwd=2, lty=1) 

lines (lowess (wt,mpg), col="blue", lwd=2, lty=2) 


图 形 结果 参见 图 11-1。 
























































Basic Scatter plot of MPG vs. Weight 





Miles Per Gallon 








Car Weight (lbs/1000) 


图 11-1 汽车 英里 数 对 车 重 的 散 点 图 ， 添 加 了 线性 拟 合 直线 和 lowess 拟 合 曲线 








11.1 散 点 图 239 























代码 清单 11-1 中 的 代码 加 载 了 mtcars 数 据 框 ， 创建 了 一 幅 基 本 的 散 点 图 ， 图 形 的 符号 "是 实 
心 圆圈 。 与 预期 结果 相同 , 随 着 车 重 的 增加 , 每 加 仑 英里 数 减 少 , 虽然 它们 不 是 完美 的 线性 关系 。 
abline () 函数 用 来 添加 最 佳 拟 合 的 线性 直线 , 而 lowess () 函数 则 用 来 添加 一 条 平滑 曲线 。 该 平 
滑 曲 线 拟 合 是 一 种 基于 局 部 加 权 多 项 式 回 归 的 非 参 数 方法 。 算 法 细节 可 参见 Cleveland ( 1981 )。 











注意 R 有 两 个 平滑 曲线 拟 合 函数 : 1owess() 和 loess()。loess() 是 基于 lowess () 表 达 式 版 
本 的 更 新 和 更 强大 的 拟 合 函数 。 这 两 个 函数 的 默认 值 不 同 ， 因 此 要 小 心 使 用 ， 不 要 把 它 
们 和 弄 混淆 了 。 


car 包 中 的 scatterplot () 函数 增强 了 散 点 图 的 许多 功能 , 它 可 以 很 方便 地 绘制 散 点 图 , 并 
能 添加 拟 合 曲线 、 边 界 箱 线 图 和 置信 椭圆 ， 还 可 以 按 子 集 绘图 和 交互 式 地 识别 点 。 例如， 以 下 代 
人 码 可 生成 一 个 比 之 前 图 形 更 复杂 的 版 本 : 


library (car) 
scatterplot (mpg ~ wt | cyl, data=mtcars, lwd=2, span=0.75, 
main="Scatter Plot of MPG vs. Weight by # Cylinders", 
xlab="Weight of Car (lbs/1000)", 
ylab="Miles Per Gallon", 
legend.plot=TRUE, 
id.method="identify", 
labels=row.names (mtcars), 
boxplotess"y" 














) 


此 处 ，scatterplot () 子 数 用 来 绘制 四 和 氏 、 六 和 氏 和 八 包 汽车 每 加 仑 英里 数 对 车 重 的 图 形 。 
表达 式 mpg ~ wt | cy1 表 示 按 条 件 绘图 ( 即 按 cy1 的 水 平分 别 绘制 mppg 和 wt 的 关系 图 )。 结 果 见 
图 11-2。 

默认 地 ， 各 子 集会 通过 颜色 和 图 形 符号 加 以 区 分 ， 并 同时 绘制 线性 拟 合 和 平滑 拟 合 曲线 。 
span 人 参数 控制 loess 曲 线 中 的 平滑 量 。 它 的 参数 值 越 大 ， 拟 合 得 就 越 好 。ia.method 选 项 的 设 定 
表明 可 通过 鼠标 单 击 来 交互 式 地 识别 数据 点 ， 直 到 用 户 选 择 Stop ( 通过 图 形 或 者 背景 菜单 ) 或 者 
获 击 Esc 键 。1abels 选 项 的 设 定 表 明 可 通过 点 的 行 名 称 来 识别 点 。 此 图 中 可 以 看 到 ， 给 定 Toyata 
Corolla 和 Fiat 128 的 车 重 ， 通常 每 加 仑 燃油 可 行驶 得 更 远 。legengd .plot 选 项 表明 在 左上 边界 添 
加 图 例 ， 而 mpg 和 weignt 的 边界 箱 线 图 可 通过 poxplots 选 项 来 绘制 。 总 之 ，scatterplot () 
函数 还 有 许多 特性 值得 探究 ， 比 如 本 节 未 讨论 的 稳健 性 选项 和 数据 集中 度 椭圆 选项 。 更 多 细节 可 
参见 help (scatterplot)。o 

散 点 图 可 以 一 次 对 两 个 定量 变量 间 的 关系 进行 可 视 化 。 但 是 如 果 想 观察 下 汽车 里 程 、 车 重 、 
排 量 (立方 英寸 ) 和 后 轴 比 间 的 二 元 关系 , 该 怎么 做 呢 ? 一 种 途径 就 是 将 六 幅 散 点 图 绘制 到 一 个 
和 矩阵 中 ， 这 便 是 下 节 即 将 介绍 的 散 点 图 矩阵 。 































































































QD 即 指 plot () 函数 中 的 pch 参 数 。 一 一 译 者 注 
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Scatter Plot of MPG vs. Weight by # Cylinders 
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| 一 … 
图 11-2 ”各 子 集 的 散 点 图 与 其 相应 的 拟 合 曲线 











11.1.1 散 点 图 和 矩阵 


了 R 中 有 很 多 创建 散 点 图 矩阵 的 实用 函数 。pairs () 函数 可 以 创建 基础 的 散 点 图 矩阵。 下 面 的 
代码 生成 了 一 个 散 点 图 矩阵， 包含 mpg、disp、drat 和 wt 四 个 变量 : 

















pairs(~mpg+disp+drat+wt, data=mtcars, 
main="Basic Scatter Plot Matrix") 


图 中 包含 ~ 右边 的 所 有 变量 ， 参 见 图 11-3。 

在 图 11-3 中 ,你 可 以 看 到 所 有 指定 变量 间 的 二 元 关系 。 例 如 ，mpg 和 gi sp 的 散 点 图 可 在 两 变 
量 的 行列 交叉 处 找到 。 值 得 注意 的 是 ， 主 对 角 线 的 上 方 和 下 方 的 六 幅 散 点 图 是 相同 的 ， 这 也 是 为 
了 方便 摆 放 图 形 的 缘故 。 通 过 调整 参数 ， 可 以 只 展示 下 三 角 或 者 上 三 角 的 图 形 。 例 如 ， 选 项 
upper.panel = NULI 将 只 生成 下 三 角 的 图 形 。 

car 包 中 的 scatterplotMatrix() 函数 也 可 以 生成 散 点 图 矩阵， 并 有 以 下 可 选 操作 : 

口 以 某 个 因子 为 条 件 绘制 散 点 图 矩阵 ; 

口 包含 线性 和 平滑 拟 合 曲线 ; 

口 在 主 对 角 线 放置 箱 线 图 、 密 度 图 或 者 直方 图 ; 
口 在 各 单元 格 的 边界 添加 轴 须 图 。 

例如 : 


library (car) 

scatterplotMatrix(~ mpg + disp + drat + wt, data=mtcars, 
spread=FALSE, smoother.args=list (lty=2), 
main="Scatter Plot Matrix via car Package") 
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Basic Scatter Plot Matrix 
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图 11-3 ”pairs () 函数 创建 的 散 点 图 矩阵 


结果 见 图 11-4。 可 以 看 到 线性 和 平滑 (loess ) 拟 合 曲线 被 默认 添加 ， 主 对 角 线 处 添加 了 核 密 
度 曲线 和 轴 须 图 。spreaq = FALSE 选 项 表示 不 添加 展示 分 散 度 和 对 称 信 息 的 直线 ， 
smoother.args=list (lty=2) 设 定 平滑 (loess) 拟 合 曲线 使 用 虚线 而 不 是 实 线 。 


Scatter Plot Matrix via car Package 
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图 11-4 scatterplotMatrix() 图 数 创 建 的 散 点 图 矩阵 。 主 对 角 线 上 有 核 密度 


曲线 和 轴 须 图 ， 其 余 图 形 都 含有 线性 和 平滑 拟 合 曲线 
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R 提 供 了 许多 其 他 的 方式 来 创建 散 点 图 矩阵。 你 可 能 想 探 索 glus 包 中 的 cpars () 函数 ， 
TeachingDemos 包 中 的 pairs2 () 图 数 ，HH 包 中 的 xysplom() 函 数 ，ResourceSselection 包 中 
的 kepairs () 图 数 和 SMPracticals 包 中 的 pairs.moda() 困 数 。 每 个 包 都 加 入 了 自己 独特 的 
线 。 分 析 师 必定 会 爱 上 散 点 图 矩阵 ! 





























11.1.2 ”高 密度 散 点 图 


当 数 据点 重合 很 严重 时 ， 用 散 点 图 来 观察 变量 关系 就 显得 “力不从心 ” 了。 下面 是 一 个 人 为 
设计 的 例子 ， 其 中 10 000 个 观测 点 分 布 在 两 个 重 伙 的 数据 群 中 : 


set.seed(1234) 


























n <- 10000 
cl <- matrix(rnorm(n, mean=0, sd=.5), ncol=2) 
c2 <- matrix(rnorm(n, mean=3, sd=2), ncol=2) 


mydata <- rbind(cl, c2) 
mydata <- as.data.frame (mydata) 
names (mydata) <- c("x", "y") 


奉 用 下 面 的 代码 生成 一 幅 标 准 的 散 点 图 : 


with (mydata, 




















plot (x, y, pch=19, main="Scatter Plot with 10,000 Observations")) 


你 将 会 得 到 如 图 11-5 所 示 的 图 形 。 


Scatter Plot with 10,000 Observations 


10 





图 11-5 10 000 个 观测 点 的 散 点 图 ， 严 重 的 重合 导致 很 难 识别 哪里 数据 点 的 密度 最 大 
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11-5 中 ， 数 据点 的 重合 导致 识别 x 与 y 间 的 关系 变 得 异常 困难 。 针 对 这 种 情况 ，R 提 供 了 一 
些 解决 办 法 。 你 可 以 使 用 封 第 、 颜 色 和 透明 度 来 指明 图 中 任意 点 上 重 关 点 的 数目 。 

smoothSscatter() 函数 可 利用 核 密度 估计 生成 用 颜色 密度 来 表示 点 分 布 的 散 点 图 。 代 码 如 
下 : 


with (mydata, 
smoothScatter (x, y, main="Scatter Plot Colored by Smoothed Densities")) 


生成 图 形 见 图 11-6。 








Scatter Plot Colored by Smoothed Densities 


10 




















图 11-6 ”smoothscatter () 利 用 光平 滑 密度 估计 绘制 的 散 点 图 。 此 人 处 密度 易 读 性 更 强 


与 上 面 的 方法 不 同 ，hexbin 包 中 的 hexbin () 函数 将 二 元 变量 的 封 箱 放 到 六 边 形 单元 格 中 
( 图 形 比 名 称 更 直观 )。 示 例如 下 : 


library (hexbin) 
with(mydata, { 
bin <- hexbin (x, y, xbins=50) 
plot (bin, main="Hexagonal Binning with 10,000 Observations") 


}) 
你 将 得 到 如 图 11-7 所 示 的 散 点 图 。 

















244 第 11 章 中 级 绘图 





Hexagonal Binning with 10,000 Observations 


Counts 


262 
246 





xX 


图 11-7 用 六 边 形 封 箱 图 展示 的 各 点 上 和 覆盖 观测 点 数 
集中 度 很 容易 计算 和 观察 


综 上 可 见 , 基 础 包 中 的 smoothscatter() 子 数 以 及 IDPmisc 包 中 的 ipairs () 子 数 都 可 以 对 
大 数据 集 创 建 可 读 性 较 好 的 散 点 图 和 矩阵。 通过 ?smoothscatter 和 ?ipairs 可 获得 更 多 的 示例 。 


11.1.3 三维 散 点 图 


散 点 图 和 散 点 图 矩阵 展示 的 都 是 二 元 变量 关系 。 倘 若 你 想 一 次 对 三 个 定量 变量 的 交互 关系 进 
行 可 视 化 呢 ? 本 节 例 子 中 ， 你 可 以 使 用 三 维 散 点 网 。 

例如 ， 假 使 你 对 汽车 英里 数 、 车 重 和 排 量 间 的 关系 感 兴趣 ， 可 用 scatterplot3d 包 中 的 
scatterplot3d() 函数 来 绘制 它们 的 关系 。 格 式 如 下 : 


scatterplot3d(x, y, 2) 
x 被 绘制 在 水 平 轴 上 ，y 被 绘制 在 竖 直 轴 上 ，z 被 绘制 在 透视 轴 上 。 继 续 我 们 的 例子 : 


library (scatterplot3d) 

attach (mtcars) 

scatterplot3d(wt, disp, mpg, 
main="Basic 3D Scatter Plot") 


生成 一 幅 三 维 散 点 图 ， 见 图 11-8。 


























ei 


的 散 点 图 。 通 过 图 例 ， 数 据 的 














































































































Basic 3D Scatter Plot 


mpg 
disp 























图 11-8 ”每 加 仑 英里 数 、 车 重 和 排 量 的 三 维 散 点 图 











satterplot3d() 函数 提供 了 许多 选项 ,包括 设置 图 形 符号 、 轴 、 颜 色 、 线 条 、 网 格 线 、 突 
出 显示 和 角度 等 功能 。 例 如 代码 : 





library (scatterplot3d) 
attach (mtcars) 
scatterplot3d(wt, disp, mpg, 
Behal6:; 
highlight .3d=TRUE, 
type="h", 
main="3D Scatter Plot with Vertical Lines") 


生成 一 幅 突出 显示 效果 的 三 维 散 点 图 ， 增 强 了 纵深 感 ， 添 加 了 连接 点 与 水 平面 的 垂直 线 ( 见 图 
11-9 )。 


作为 最 后 一 个 例子 ， 我 们 在 刚才 那 幅 图 上 添加 一 个 回归 面 。 所 需 代 码 为 : 


library (scatterplot3d) 

attach (mtcars) 

s3d <-scatterplot3d(wt, disp, mpg, 
pch=16, 
highlight .3d=TRUE, 
type="h", 

















main="3D Scatter Plot with Vertical Lines and Regression Plane") 
fit <- lm(mpg ~ wt+disp) 
s3dsplane3d (fit) 


结果 见 图 11-10。 
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3D Scatter Plot with Vertical Lines 


disp 


mpg 














图 11-9 ”添加 了 垂直 线 和 阴影 的 三 维 散 点 图 

















3D Scatter Plot with Vertical Lines and Regression Plane 
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图 11-10 添加 了 垂直 线 、 阴 影 和 回归 平面 的 三 维 散 点 图 
图 形 利用 多 元 回归 方程 , 对 通过 车 重 和 排 量 预测 每 加 仑 英里 数 进行 了 可 视 化 处 理 。 平面 代表 
图 中 的 点 是 实际 值 。 平面 到 点 的 垂直 距离 表示 残 差 值 。 若 点 在 平面 之 上 则 表明 它 的 预测 


预测 值 ， ; 
值 被 低估 了 ， 而 点 在 平面 之 下 则 表明 它 的 预测 值 被 高 佑 了。 多 元 回归 内 容 见 第 8 章 。 
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11.1.4 ”旋转 三 维 散 点 图 


如 果 你 能 对 三 维 散 点 图 进行 交互 式 操作 ， 那 么 图 形 将 会 更 好 解释 。R 提 供 了 一 些 旋转 图 形 的 
功能 ， 让 你 可 以 从 多 个 角度 观测 绘制 的 数据 点 。 

例如 ， 你 可 用 rg1 包 中 的 plot3d() 函数 创建 可 交互 的 三 维 散 点 图 。 你 能 通过 鼠标 对 图 形 进 
行 旋转 。 函 数 格式 为 : 

让 的 本 入 和 EF 
其 中 x、y 和 z 是 数值 型 向 量 ， 代 表 着 各 个 点 。 你 还 可 以 添加 如 col 和 size 这 类 的 选项 来 分 别 控 种 
点 的 颜色 和 大 小 。 继 续 上 面 的 例子 ,使 用 代码 : 














We 


library (rgl1) 
attach (mtcars) 
plot3d(wt, disp, mpg, col="red", size=5) 


可 获得 如 图 11-11 所 示 的 图 形 。 通 过 鼠标 旋转 坐标 轴 ， 你 会 发 现 三 维 散 点 图 的 旋转 能 使 你 更 轻松 
地 理解 图 形 。 




















a | RGL device 12 [Focus] 一 中 x | 

















图 11-11 rgl 包 中 的 plot3a() 函数 生成 的 旋转 三 维 散 点 网 
你 也 可 以 使 用 car 包 中 类 似 的 函数 scatter3d(): 


library (car) 
with(mtcars, 
scatter3d(wt, disp, mpg)) 


结果 图 形 见 图 11-12。 
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| RGL device 14 [Focus] IE 一 X 一 | 























图 11-12 cazr 包 中 的 scatter3d() 生 成 的 旋转 三 维 散 点 图 
scatter3d() 函数 可 包含 各 种 回归 曲面 ， 比 如 线性 、 二 次 、 平 滑 和 附加 等 类 型 。 图 形 默 认 添 
加 线性 平面 。 另 外 ， 函 数 中 还 有 可 用 于 交互 式 识别 点 的 选项 。 通 过 help (scatter3d) 可 获得 孙 
数 的 更 多 细节 。 





11.1.5 气泡 图 





在 之 前 的 章节 中 , 我 们 通过 三 维 散 点 图 来 展示 三 个 定量 变量 间 的 关系 。 现 在 介绍 另外 一 种 思 
路 : 先 创建 一 个 二 维 散 点 图 ,然后 用 点 的 大 小 来 代表 第 三 个 变量 的 值 。. 这 便 是 气泡 图 (bubble plot )。 

你 可 用 symbols () 函数 来 创建 气泡 图 。 该 函数 可 以 在 指定 的 (x, y) 坐 标 上 绘制 圆圈 图 、 方 形 
图 、 星 形 图 、 温 度 计 图 和 箱 线 图 。 以 绘制 圆圈 图 为 例 : 

symbols (x, y, circle=radius) 
其 中 x、y 和 zradius 是 需要 设 定 的 向 量 , 分别 表示 x、y 坐 标 和 圆圈 半径 。 

你 可 能 想 用 面积 而 不 是 半径 来 表示 第 三 个 变量 ,那么 按照 圆圈 半径 的 公式 (~ ) 变换 即 
可 : 

symbols (x, y, circle=sqrt (z/pi)) 
z 即 第 三 个 要 绘制 的 变量 。 

现在 我 们 把 该 方法 应 用 到 mtcars 数 据 集 上 ，x 轴 代表 车 重 ，y 轴 代表 每 加 仑 英里 数 ， 气 泡 大 
小 代表 发 动机 排 量 。 代 码 如 下 : 
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attach (mtcars) 
r <- sqrt (disp/pi) 
symbols (wt, mpg, circle=r, inches=0.30, 
fg="white", bg="lightblue", 
main="Bubble Plot with point size proportional to displacement", 
ylab="Miles Per Gallon", 
xlab="Weight of Car (lbs/1000)") 
text (wt, mpg, rownames (mtcars), cex=0.6) 
detach (mtcars) 


生成 图 形 见 图 11-13。 选 项 inches 是 比例 因子 ,控制 着 圆圈 大 小 ( 默认 最 大 圆圈 为 1 英寸 )。 
text () 国 数 是 可 选 函 数 ， 此 处 用 来 添加 各 个 汽车 的 名 称 。 从 图 中 可 以 看 到 ， 随 着 每 加 仑 汽油 所 
行驶 里 程 的 增加 ， 车 重 和 发 动机 排 量 都 逐渐 减少 。 

















Bubble Plot with point size proportional to displacement 
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图 11-13 ”车 重 与 每 加 仑 英里 数 的 气泡 图 ， 点 大 小 与 发 动机 排 量 成 正比 


一 般 来 说 ,统计 人 员 使 用 R 时 都 倾向 于 避免 用 气泡 图 ， 原 因 和 避免 使 用 饼 图 一 样 : 相 比 对 长 
度 的 判断 ， 人 们 对 体积 /面积 的 判断 通常 更 困难 。 但 是 气泡 图 在 商业 应 用 中 非常 受 欢迎 ， 因 此 我 
还 是 将 其 包含 在 了 本 音 里 。 

对 于 散 点 图 , 我 已 经 介绍 非常 多 了 ,之 所 以 论述 这 么 多 的 细节 ,主要 是 因为 它 在 数据 分 析 中 
占据 着 非常 重要 的 位 置 。 虽然 散 点 图 很 简单 ,但 是 它们 能 帮 你 以 最 直接 的 方式 展示 数据 ， 发 现 可 
能 会 被 忽略 的 隐藏 关系 。 
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11.2 ”折线 图 
































i es 点 从 左 往 右 连 接 起 来 ， 就 会 得 到 一 个 折线 图 。 以 基础 安装 中 的 0range 数 
据 集 为 例 , 它 包 含 五 种 橘 树 的 树龄 和 年 轮 数据 。 二 一 种 橘 树 的 生长 情况 ,绘制 图 形 11-14。 
上 右 图 为 折线 图 。 可 以 看 到 ， 折 线 图 是 一 个 刻画 变动 的 优秀 工具 。 
Orange Tree 1 Growth Orange Tree 1 Growth 
十 8 3 
500 1000 1500 500 1000 1500 
Age (days) Age (days) 


图 11-14 散 点 图 与 折线 图 的 对 比 
图 11-14 是 由 代码 清单 11-2 中 的 代码 创建 的 。 
代码 清单 11-2 创建 散 点 图 和 折线 图 


opar <- par(no.readonly=TRUE) 

par (mfrow=c(1,2)) 

tl <- subset (Orange, Tree==1) 

plot (tl$sage, tl$circumference, 
xlab="Age (days)" 
ylab= Oe (mm) ", 
main="Orange Tree 1 Growth") 

plot (tl$age, tls$circumference, 
xlab="Age (days)", 
ylab="Circumference (mm)", 
main="Orange Tree 1 Growth", 
type="b") 

par (opar) 


你 已 经 在 第 3 章 见 过 代码 中 的 基本 参数 ， 因 此 此 处 不 做 过 多 讲解 。 图 11-14 中 两 幅 图 的 主要 区 
别 取 决 于 参数 type="b"。 折 线 图 一 般 可 用 下 列 两 个 函数 之 一 来 创建 : 


plot (x, y, type=) 
lines (x, y, type=) 


其 中 ，x 和 y 是 要 连接 的 (x,y) 点 的 数值 型 向 量 。 参 数 type= 的 可 选 值 见 表 11-1。 
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表 11-1 折线 图 类 型 

































































类 型 图 形 外 观 

p 只 有 点 

也 只 有 线 

0 实心 点 和 线 ( 即 线 覆 盖 在 点 上 ) 

bye 线 连接 点 (<c 时 不 绘制 点 ) 

S、S 阶梯 线 

nh 年 方 图 式 的 垂直 线 

不 生成 任何 点 和 线 ( 通常 用 来 为 后 面 的 命令 创建 坐标 轴 ) 























图 11-15 给 出 了 各 类 型 的 示例 。 可 以 看 到 ，type="p" 生 成 了 典型 的 散 点 图 ，type="b" 是 
常见 的 折线 图 。b 和 c 间 的 不 同 之 处 在 于 点 是 否 出 现 或 者 线 之 间 是 否 有 空 队 。type="s" 
type="S" 都 生成 阶梯 线 (阶梯 函数 ), 但 第 一 种 类 型 是 先 横着 画 线 ， 然 后 再 上 升 ， 而 第 二 种 类 
则 是 先 上 升 ， 再 横着 画 线 。 
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图 11-15 plot () 和 1ines () 函数 中 的 type 参 数值 
注意 , plot () 和 1ines () 函数 工作 原理 并 不 相同 。plot () 函数 是 在 被 调用 时 创建 一 幅 新 图 ， 


而 lines () 函数 则 是 在 已 存在 的 图 形 上 添加 信息 ， 并 不 能 自己 生成 图 形 。 
因此 ，1ines () 函数 通常 是 在 plot () 函数 后 成 一 幅 图 形 后 再 被 调用 。 如 果 对 图 形 有 要 求 ， 
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你 可 以 先 通过 plot () 函数 中 的 type="n" 选 项 来 创建 坐标 轴 、 标题 和 其 他 图 形 特征 , 然后 再 使 用 
lines () 函数 添加 各 种 需要 绘制 的 曲线 。 

我 们 以 绘制 五 种 橘 树 随 时 间 推 移 的 生长 状况 为 例 ， 逐 步 展 示 一 个 更 复杂 折线 图 的 创建 过 程 。 
每 种 树 都 有 自己 独 有 的 线条 。 代 码 见 代码 清单 11-3 ， 结 果 见 图 11-16。 


代码 清单 11-3 ”展示 五 种 橘 树 随时 间 推 移 的 生长 状况 的 折线 图 


OrangeSTree <- as.numeric (OrangeS$STree) Ws m， 
ntrees <- max(OrangesTree) AR 2 











xrange <- range (Oranges$sage) 
yrange <- range (Orangescircumference) 


plot (xrange, yrange, 
type="n", 
xlab="Age (days)", 创建 图 形 
ylab="Circumference (mm)" 


) 


colors <- rainbow (ntrees) 
linetype <- c(l:ntrees) 
plotchar <- seq(18, 1l8+ntrees, 1) 





for (i in l:ntrees) { 

tree <- subset (Orange, Tree==i) 

lines (tree$age, treescircumference, 
type="b", 
Twa=27 
lty=linetype[i]， 添加 线条 
COl=Colors[i], 
pch=plotchar[il] 





} 
title("Tree Growth", "example of line plot") 


legend (xrange[1], yrange[2], 
1l:ntrees, 
CexX=0.83 
GOL=colLGES 7 
pch=plotchar, 添加 图 例 
lty=linetype, 
title="Tree" 
) 


在 代码 清单 11-3 中 ，plot () 函数 先 用 来 创建 空 图 形 ， 只 设 定 了 轴 标 签 和 轴 范 围 ， 并 没有 
绘制 任何 数据 点 ， 每 种 橘 树 独 有 的 折线 和 点 都 是 随后 通过 1ines () 函数 来 添加 的 。 可 以 看 到 ， 
Tree 4 和 Tree 5 在 整个 时 间 段 中 一 直 保 持 着 最 快 的 生长 速度 ， 而 且 Tree 5 在 大 约 664 天 的 时 候 超 
过 了 Tree 4。 
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图 11-16 展示 五 种 橘 树 生长 状况 的 折线 图 


代码 清单 11-3 使 用 了 许多 R 中 的 编程 惯例 ， 这些 惯 例 在 第 2 章 、 第 3 章 和 第 4 章 都 已 讨论 过 。 通 
过 亲手 一 行 一 行 地 敲 入 代码 ,观察 可 视 化 结果 ,你 可 以 检验 是 否 对 这 些 惯例 有 了 深刻 的 理解 。 如 
果 答 案 是 肯定 的 , 那么 恭喜 你 ,你 正在 成 为 严肃 的 R 程 序 员 ( 声名 和 机 遇 都 唾 手 可 得 了 )! 在 下 一 
节 中 ， 我 们 将 会 探索 各 种 同时 检验 多 个 相关 系数 的 方法 。 


11.3 ”相关 图 


相关 系数 矩阵 是 多 元 统计 分 析 的 一 个 基本 方面 。 哪 些 被 考察 的 变量 与 其 他 变量 相关 性 很 强 ， 
而 哪些 并 不 强 ? 相关 变量 是 否 以 某 种 特定 的 方式 聚集 在 一 起 ? 随 着 变量 数 的 增加 ， 这 类 问题 将 
变 得 更 难 回 答 。 相 关 图 作为 一 种 相对 现代 的 方法 ， 可 以 通过 对 相关 系数 矩阵 的 可 视 化 来 回答 这 
些 问 题 。 

相关 图 非常 容易 解释 , 你 只 要 看 到 它 就 会 立刻 明白 ,以 mtcars 数 据 框 中 的 变量 相关 性 为 例 ， 
它 含 有 11 个 变量 ， 对 每 个 变量 都 测量 了 32 辆 汽车 。 利 用 下 面 的 代码 ， 你 可 以 获得 该 数据 的 相关 
系数 : 


> options (digits=2) oe 


> cor(mtcars) 

mpg cyl disp hp drat wt GSec VS am gear carb 
mpg 4200% 3:0%89 083 <0 7 8 .0 G80 S08 Qsd 9 0b6r -0.600 0348 =0.s55. 
YL Oss85, .LaO0 90 10:83 .000 0 08: "0 GIL. OBL 0 323 0 49: ,08.527 
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dispB .=0%85 090 100. "0% 79 =05710. “0089 =0434. :5077 059L 0%56 .00395 
hp -0 0.583 “O79 LOO Od49 0566 0708 0872 = 0243. -O013 0...0 
drats 0w68 0570 S00 45 L000 0/E, O09 544 O07 020 S009 
wt OB OWF8: Vv O89 O06 OT L300 075.. 00950 0692 058 “O428 
dqsee ‘0.42-~0.59 =0,.43 "0.71 0.091 0.7 ‘1.000 0.74 -0.230 :=021 :=0.656 
VS 0566 0281 一 0 了 :0572 O440 055 02745 ‘100 0.168- 0%21 =0%570 
am O60 O052 OB O24 OT 069 0230" Qly 1000,. .0.379 0058 
ear 0s48 =0w49 S056. S03 "Qu00 058 "02213 O02L O94 L000 TO 
carb: =0.55. O58 .039 O75 O0091 - Od3 -08656 =057 0058 0527 L000 


哪些 变量 相关 性 最 强 ? 哪些 变量 相对 独立 ?是否 存在 某 种 聚集 模式 ? 如果 不 花 点 时 间 和 精 
力 ( 可 能 还 需要 用 些 彩 笔 做 些 注释 )， 单 利用 这 个 相关 系数 和 矩阵 来 回答 这 些 问题 是 比较 困难 的 。 

利用 corrgram 包 中 的 corrgram() 图 数 ， 你 可 以 用 网 形 的 方式 展示 该 相关 系数 和 矩阵 〈 见 图 
11-17 )。 代 码 为 : 








library (corrgram) 

corrgram(mtcars, order=TRUE, lower.panel=panel.shade, 
upper.panel=panel .pie, text.panel=panel .txt, 
main="Corrgram of mtcars intercorrelations") 


Corrgram of mtcars intercorrelations 
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变量 的 相关 系数 图 。 和 矩阵 行 和 列 都 通过 主 成 分 分 析 法 进行 
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图 11-17 mtcars 数 据 框 
了 重新 排序 
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我 们 先 从 下 三 角 单 元 格 (在 主 对 角 线 下 方 的 单元 格 ) 开始 解释 这 幅 图 形 。 默 认 地 ， 蓝 色 和 从 
左下 指向 右上 的 斜 杠 表示 单元 格 中 的 两 个 变量 呈正 相关 。 反 过 来 , 红色 和 从 左上 指向 右 下 的 斜 杠 
表示 变量 呈 负 相关 。 色 彩 越 深 ,饱和 度 越 高 ， 说 明 变 量 相关 性 越 大 。 相 关 性 接近 于 0 的 单元 格 基 
本 无 色 。 本 图 为 了 将 有 相似 相关 模式 的 变量 聚集 在 一 起 ,对 移 阵 的 行 和 列 都 重新 进行 了 排序 ( 使 
用 主 成 分 法 )。 

从 图 中 含 阴 影 的 单元 格 中 可 以 看 到 ，gear 、am、qrat 和 mpg 相 互 间 呈正 相关 ，wt 、disp、 
hp 和 carpb 相 互 间 也 呈正 相关 。 但 第 一 组 变量 与 第 二 组 变量 呈 负 相关 。 你 还 可 以 看 到 carb 和 am、 
vs 和 gear、vs 和 am 以 及 drat 和 qsec 四 组 变量 间 的 相关 性 很 弱 。 

上 三 角 单 元 格 用 饼 图 展示 了 相同 的 信息 。 颜色 的 功能 同上 , 但 相关 性 大 小 由 被 填充 的 饼 图 块 
的 大 小 来 展示 。 正 相关 性 将 从 12 点 钟 处 开始 顺 时 针 盾 充 饼 图 , 而 负 相 关 性 则 逆 时 针 方 向 填充 饼 图 。 

corrgram() 函数 的 格式 如 下 : 

corrgram(x, order=, panel=, text.panel=, diag.panel=) 

其 中 ，x 是 一 行 一 个 观测 的 数据 框 。 当 ordaer=TRUE 时 ， 相 关 和 矩阵 将 使 用 主 成 分 分 析 法 对 变量 重 
排序 ， 这 将 使 得 二 元 变量 的 关系 模式 更 为 明显 。 

选项 panel 设 定 非 对 角 线 面板 使 用 的 元 素 类 型 。 你 可 以 通过 选项 lower.panel 和 
upper .panel 来 分 别 设置 主 对 角 线 下 方 和 上 方 的 元 素 类 型 。 而 text .panel 和 diag .panel 选 项 
控制 着 主 对 角 线 元 素 类 型 。 可 用 的 pane1 值 见 表 11-2。 


表 11-2 ”corrgram() 函数 的 pane1 选 项 


































































































位 置 面板 选项 描述 

非 对 角 线 panel.pie ] 饼 图 的 填充 比例 来 表示 相关 性 大 小 
panel .shade 用 阴影 的 深度 来 表示 相关 性 大 小 
panel.ellipse 面 一 个 置信 椭圆 和 平滑 曲线 
panel.pts 画 一 个 散 点 图 
panel .conf 画 出 相关 性 及 置信 区 间 

主 对 角 线 panel .ext 输出 变量 名 
panel .minmax 输出 变量 的 最 大 最 小 值 和 变量 
panel.ednsity 输出 核 密度 曲线 和 变量 























让 我 们 尝试 第 二 个 例子 。 代 码 如 下 : 


library (corrgram) 
corrgram(mtcars, order=TRUE, lower.panel=panel.ellipse, 
upper.panel=panel.pts, text.panel=panel .txt, 
diag.panel=panel .minmax, 
main="Corrgram of mtcars data using scatter plots 
and ellipses") 


生成 的 图 形 见 图 11-18。 此 处 ,我们 在 下 三 角 区 域 使 用 平滑 拟 合 曲线 和 置信 和 椭圆， 上 三 角 区 域 使 
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图 11-18 mtcars 数 据 框 中 变量 的 相关 系数 








椭圆 ， 上 三 角 区 域 包含 散 点 图 。3 
] 主 成 分 分 析 法 进行 了 重 排 序 














的 行 和 列 利 





图 11-18 中 绘制 的 散 点 图 限制 了 
必须 取 4、6 或 者 8。am (传动 类 型 ) 和 vs (V/S ) 都 是 


来 很 奇怪 。 


为 数据 选择 合适 的 统计 方法 时 , 你 一 定 要 保持 谨慎 的 心态 。 
因子 可 以 为 之 提供 有 用 的 诊断 。 当 RR 知道 变量 是 类 别 型 还 是 有 序 型 时 ， 


量 水 平 的 统计 方法 。 











最 后 ， 我 们 再 看 一 个 例子 。 代 码 如 下 : 





library (corrgram) 
corrgraml(mtears, 


upper.panel=NULL, 
main="Car Mileage Data 


lower.panel=panel.shade, 
text .panel=panel .txt, 


(unsorted)") 


FE 对 角 面 板 包含 


为 何 散 点 图 看 起 来 怪 怪 的 ? 
了 一 些 变 量 的 可 用 值 。 例 如 ， 


挡 位 数 必 须 取 3、 4 或 5， 汽 红 数 
三 值 型 。 因 此 上 三 角 区 域 的 散 点 图 看 起 


已 定 亦 有 妃 
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图 。 下 三 角 区 域 包 含 平滑 拟 合 曲线 和 置信 
变量 最 小 和 最 大 值 。 和 矩阵 





是 有 人 因子 还 是 无 序 
它 会 使 用 适合 于 当前 测 


11.3 ”相关 图 257 








生成 的 图 形 见 图 11-19。 此 处 ， 我 们 在 下 三 角 区 域 使 用 了 阴影 ， 并 保持 原 变量 顺序 不 变 ， 上 
三 角 区 域 留 日 。 


Car Mileage Data (unsorted) 
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图 11-19 ”mtcars 数 据 框 中 变量 的 相关 系数 图 。 下 三 角 区 域 的 阴影 代表 相关 系数 的 
大 小 和 正 负 。 变量 按 初 始 顺 序 排列 


在 继续 下 文 之 前 ， 这 里 说 明 一 下 ， 你 能 自主 控制 corrgram() 函数 中 使 用 的 颜色 。 例 如 ， 你 
可 在 col .corrgram() 函数 中 用 colorRampPallette() 也 数 来 指定 四 种 颜色 : 


library (corrgram) 
cols <- colorRampPalette(c("darkgoldenrod4", "burlywoodl1", 
"darkkhaki", "darkgreen")) 
corrgram(mtcars, order=TRUE, col.regions=cols, 
lower.panel=panel.shade, 
upper.panel=panel.conf, text.panel=panel .txt, 
main="A Corrgram (or Horse) of a Different Color") 


运行 代码 ， 看 看 所 得 的 结果 。 

相关 系数 图 是 检验 定量 变量 0 的 一 种 有 效 方式 。 由 于 图 形 相对 比较 新 颖 ,因此 
教会 目标 读者 看 懂 图 形 将 是 最 大 的 挑战 。 想 了 解 相关 图 的 更 多 内 容 ， 可 参考 Michael Friendly 的 文 
章 “Corrgrams: Exploratory Displays for Correlation Matrices”( 下 载 网 址 为 www.math.yorku.ca/SCS/ 











Papers/corrgram.pdf )。 
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11.4 ”马赛克 图 














到 目前 为 止 , 我 们 已 经 学 习 了 许多 可 视 化 定量 或 连续 型 变量 间 关 系 的 方法 。 但 如 果 变 量 是 类 
别 型 的 呢 ? 若 只 观察 单个 类 别 型 变量 ,可 以 使 用 柱状 图 或 者 饼 图 ; 若 存在 两 个 类 别 型 变量 ， 可 以 
使 用 三 维 柱状 图 (不 过 , 这 在 R 中 不 太 容 易 做 到 ); 但 车 有 两 个 以 上 的 类 别 型 变量 , 该 怎么 办 呢 ? 

一 种 办 法 是 绘制 马赛 克 图 ( mosaic plot )。 在 马赛 克 图 中 ， 骸 套 和 矩形 面积 正比 于 单元 格 频率 ， 
其 中 该 频率 即 多 维 列 联 表 中 的 频率 。 颜 色 和 /或 阴影 可 表示 拟 合 模型 的 残 差 值 。 更 多 图 形 细节 可 
参考 Meyer 、Zeileis 和 Hornick ( 2006 ), 或 者 Michael Friendly 的 优秀 教程 ( http://datavis.ca )。Steve 
Simon 曾 编辑 过 一 个 非常 优秀 的 绘制 马赛 克 图 的 概念 教程 ， 可 在 http:/www.childrensmercy.org/ 









































stats/definitions/mosaic.htm 获 取 。 

















vcd 包 中 的 mosaic() 函数 可 以 绘制 马赛 克 图 。( 及 基础 安装 中 的 mosaicplot () 也 可 绘制 马 
赛 克 图 ， 但 我 还 是 推荐 vcd 包 ， 因 为 它 具 有 更 多 扩展 功能 。) 以 基础 安装 中 的 Titanic 数 据 集 为 
例 ， 它 包含 存活 或 者 死亡 的 乘客 数 、 乘 客 的 船舱 等 级 (一 等 、 二 等 、 三 等 和 船员 )、 性 别 ( 男性、 




















女性 )， 以 及 年 龄 层 ( 儿童、 成 人 )。 这 是 一 个 被 充分 研究 过 的 数据 集 。 利 用 如 下 代码 ,你 可 以 看 


到 分 类 细节 : 


> ftable (Titanic) 
Survived No Yes 





Class Sex Age 
TS 七 Male Child 0 号 
Agdul 118 57 
Female Child 0 业 
Agdul 4 140 
2nd Male CH OL 
Adul 下 5 村 ”- 生 六 
Female Child 0 13 
Agdul 13 80 
3rd Male Child 35° 713 
Adul 387 75 
Female Child 全 “和 六 
Adul 89 76 
Crew Male Child 0 0 
Adul 670 192 
Female Child 0 0 
Adult 3 :20 





mosaic () 图 数 可 按 如 下 方式 调用 : 
mosaic(table) 

其 中 taple 是 数组 形式 的 列 联 表 。 男 外 ， 也 可 用 : 
mosaic(formula, data=) 


其 中 formula 是 标准 的 R 表 达 式 ，data 设 定 一 个 数据 机 
拟 合 模型 的 皮尔 逊 残 差 值 对 图 形 上 色 ， 添 加 选项 lege 





























ndq=TRU] 





EE 或 者 表格 。 添 加 选项 snade=TRUE 将 根据 





将 展示 残 差 的 图 例 。 
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例如 ， 使 用 : 


library (ved) 
mosaic(Titanic, shade=TRUE, legend=TRUE) 


和 |: 


library (ved) 
mosaic(~Class+Sex+Age+Survived, data=Titanic, shade=TRUE, legend=TRUE) 


都 将 生成 图 11-20 , 但 表达 式 版 本 的 代码 可 使 你 对 图 形 中 变量 的 选择 和 摆 放 拥有 更 多 的 控制 权 。 


Sex 
Male Female 


《ee ea 
0 os 
| 


= 
一 


总 
0 
-2 
-4 
-11 
p-value = 
<2e-16 


Survived 


图 11-20” 按 船舱 等 级 、 乘 客 性 别 和 年 龄 层 绘制 的 泰坦 尼克 号 幸存 者 的 马赛 克 图 


马赛 克 图 隐 含 着 大 量 的 数据 信息 。 例 如 : (1) 从 船员 到 头等 舱 ， 存 活 率 陡然 提高 ; (2) 大 部 分 
孩子 都 处 在 三 等 能 和 二 等 舱 中 ; (3) 在 头等 舱 中 的 大 部 分 女性 都 存活 了 下 来 ， 而 三 等 舱 中 仅 有 一 
性 存活 ; (4) 船员 中 女性 很 少 ， 2 ( 图 底部 的 No 和 Yes )。 继 续 观 

察 , 你 将 发 现 更 多 有 趣 的 信息 。 关 注 矩 形 的 相对 宽度 和 高 度 ， 你 还 能 发 现 那 晚 其 他 什么 秘密 吗 ? 

扩展 的 马赛 克 图 添加 了 颜色 和 阴影 来 表示 拟 合 模型 的 残 差 值 。 1 例 中 ,， 蓝 色 阴 影 表 明 , 在 








Pearson 
residuals: 
26 





Class 
Adult Child AdultChild Adult Child 
Age 


Child 


Crew 
Adult 
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假定 生存 率 与 船舱 等 级 、 性 别 和 年 龄 层 无 关 的 条 件 下 , 该 类 别 下 的 生存 率 通常 超过 预期 值 。 红色 
阴影 则 含义 相反 。 一 定 要 运行 该 例子 的 代码 , 这 样 你 才 可 以 真实 感受 着 色 图 形 的 效果 。 图 形 表明 ， 
在 模型 的 独立 条 件 下 ,头等 舱 女 性 存活 数 和 男性 船员 死亡 数 超过 模型 预期 值 。 如 果 存 活 数 与 船舱 
等 级 、 性 别 和 年 龄 层 独 立 , 三 等 舱 男 性 的 存活 数 比 模型 预期 值 低 。 尝 试 运 行 example (mosaic ) ， 
可 以 了 解 更 多 马赛 克 图 的 细节 。 

















11.5 小结 


本 章 中 ,我 们 学 习 了 许多 展示 两 个 或 更 多 变量 间 关 系 的 图 形 方法 ， 包 括 二 维和 三 维 散 点 图 、 
散 点 图 矩阵、 气泡 图 、 折 线 图 、 相 关系 数 图 和 马赛 克 图 。 其 中 一 些 方法 是 标准 的 图 形 方法 ,而 其 
他 的 则 相对 更 新 颖 。 

这 样 ， 图 形 的 定制 (第 3 章 )、 单 变量 分 布 的 展示 (第 6 章 )、 回 归 模 型 的 探究 〈 第 8 章 ) 和 组 
间 差 异 的 可 视 化 (第 9 章 ) 等 方法 ， 就 构成 了 你 的 可 视 化 数据 和 提取 数据 信息 的 完备 工具 箱 。 

在 后 续 各 章 中 ， 通 过 学 习 其 他 专业 化 技术 ， 比 如 潜 变 量 模型 图 形 绘制 (第 14 章 )、 时 间 序 列 
(第 15 童 )、 聚 类 数据 (第 16 章 ) 和 单条 件 或 多 条 件 变量 图 形 的 创建 技巧 (第 18 章 )， 你 还 可 以 大 
幅度 提升 自己 的 绘图 能 

下 一 章 , 我 们 将 探究 重 抽样 和 自助 法 。 它 们 都 是 计算 机 密集 型 方法 ,为 你 提供 了 一 种 分 析 数 
据 的 全 新 而 独特 的 视角 。 



































重 抽样 与 目 助 法 








本 章 内 容 

口 理解 置换 检验 的 逻辑 

口 在 线性 模型 中 应 用 置换 检验 
口 利用 自助 法 获得 置信 区 间 





在 第 7 章 、 第 8 章 和 第 9 章 中 , 通过 假定 观测 数据 抽样 自 正 态 分 布 或 者 其 他 性 质 较 好 的 理论 分 布 ， 
我 们 学 习 了 假设 检验 和 总 体 参数 的 置信 区 间 佑 计 等 统计 方法 。 但 在 许多 实际 情况 中 统计 假设 并 不 一 
定 满足 ， 比 如 数据 抽样 于 未 知 或 混合 分 布 、 样 本 量 过 小 、 存 在 离 群 点 、 基 于 理论 分 布设 计 合适 的 统 
计 检 验 过 于 复杂 且 数 学 上 难以 处 理 等 情况 ， 这 时 基于 随机 化 和 重 抽 样 的 统计 方法 就 可 派 上 用 场 。 

本 章 ， 我 们 将 探究 两 种 应 用 广泛 的 依据 随机 化 思想 的 统计 方法 : 置换 检验 和 自助 法 。 过 去 ， 
这 些 方法 只 有 娴熟 的 编程 者 和 统计 专家 才 有 能 力 使 用 。 而 现在 ，R 中 有 了 对 应 该 方法 的 软件 包 ， 
更 多 受众 也 可 以 轻松 将 它们 应 用 到 数据 分 析 中 了 。 

我 们 将 重 温 一 些 用 传统 方法 〈 如 t 检 验 、 卡 方 检验 、 方 差分 析 和 回归 ) 分 析 过 的 问题 ， 看 看 
如 何 用 这 些 稳健 的 、 计 算 机 密集 型 的 新 方法 来 解决 它们 。 为 更 好 地 理解 12.2 节 ， 你 最 好 首先 回顾 
下 第 7 章 ， 而 阅读 12.3 节 则 需要 回顾 第 8 章 和 第 9 章 ， 本 章 其 他 各 节 可 自由 阅读 。 


12.1 置换 检验 


置换 检验 ,也 称 随 机 化 检验 或 重 随 机 化 检验 ， 数 十 年 前 就 已 经 被 提出 , 但 直到 高 速 计算 机 的 
出 现 ， 该 方法 才 有 了 真正 的 应 用 价值 。 

为 理解 置换 检验 的 逻辑 ,考虑 如 下 虚拟 的 问题 。 有 两 种 处 理 条 件 的 实验 ,十 个 受 试 者 已 经 被 
随机 分 配 到 其 中 一 种 条 件 ( A 或 B ) 中 ， 相 应 的 结果 变量 ( score ) 也 已 经 被 记录 。 实 验 结果 如 
表 12-1 所 示 。 

































































表 12-1 虚拟 的 两 分 组 问题 
A 处 理 B 处 理 
40 57 
57 64 
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( 续 ) 
A 处 理 B 处 理 
45 55 
55 62 
58 65 





12-1 以 带 状 图 形式 展示 了 数据 。 此 时 ,存在 足够 的 证 据说 明 两 种 处 理 方式 的 影响 不 同 吗 ? 








Treatment 











score 


图 12-1 表 12-1 中 虚拟 数据 的 带 状 图 


在 参数 方法 中 , 你 可 能 会 假设 数据 抽样 自 等 方差 的 正 态 分 布 ,然后 使 用 假设 独立 分 组 的 双 尾 
t 检 验 来 验证 结果 。 此 时 ， 零 假设 为 A 处 理 的 总 体 均 值 与 B 处 理 的 总 体 均 值 相等 ， 你 根据 数据 计算 
了 t 统 计量 ， 将 其 与 理论 分 布 进行 比较 ， 如 果 观 测 到 的 { 统 计量 值 十 分 极端 ， 比 如 落 在 理论 分 布 值 
的 95% 置 信 区 间 外 , 那么 你 将 会 拒绝 零 假 设 , 断言 在 0.05 的 显著 性 水 平 下 两 组 的 总 体 均 值 不 相等 。 

置换 检验 的 思路 与 之 不 同 。 如 果 两 种 处 理 方式 真 的 等 价 ， 那 么 分 配给 观测 得 分 的 标签 (A 处 
理 或 B 处 理 ) 便 是 任意 的 。 为 检验 两 种 处 理 方式 的 差异 ， 我 们 可 遵循 如 下 步骤 : 

(1) 与 参数 方法 类 似 ， 计 算 观 测 数据 的 t 统 计量， 称 为 {0; 

(2) 将 10 个 得 分 放 在 一 个 组 中 ; 

(3) 随机 分 配 五 个 得 分 到 A 处 理 中 ， 并 分 配 五 个 得 分 到 B 处 理 中 ; 

(4) 计算 并 记录 新 观测 的 统计 量 ; 

(5) 对 每 一 种 可 能 随机 分 配 重复 步 又 (3)~(4)， 此 处 有 252 种 可 能 的 分 配 组 合 ; 

(6) 将 252 个 t 统 计量 按 升 序 排列 ， 这 便 是 基于 (或 以 之 为 条 件 ) 样本 数据 的 经 验 分 布 ; 

(7) 如 果 t0 落 在 经 验 分 布 中 间 95% 部 分 的 外 面 ， 则 在 0.05 的 显著 性 水 平 下 ， 拒 绝 两 个 处 理 组 的 
总 体 均 值 相等 的 零 假 设 。 

注意 ， 置 换 方 法 和 参数 方法 都 计算 了 相同 的 t 统 计量 。 但 置换 方法 并 不 是 将 统计 量 与 理论 分 
布 进行 比较 , 而 是 将 其 与 置换 观测 数据 后 获得 的 经 验 分 布 进行 比较 , 根据 统计 量 值 的 极端 性 判断 
是 否 有 足够 的 理由 拒绝 零 假 设 。 这 种 逻辑 可 以 延伸 至 大 部 分 经 由 统计 检验 和 线性 模型 上 来 。 

在 先前 的 例子 中 , 经 验 分 布依 据 的 是 数据 所 有 可 能 的 排列 组 合 。 此 时 的 置换 检验 称 作 “ 精 确 ” 
检验 。 随 着 样本 量 的 增加 ， 获 取 所 有 可 能 排列 的 时 间 开 销 会 非常 大 。 这 种 情况 下 ， 你 可 以 使 用 蒙 
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特 卡 洛 模拟 ， 从 所 有 可 能 的 排列 中 进行 抽样 ， 获 得 一 个 近似 的 检验 。 

假如 你 觉得 假定 数据 成 正 态 分 布 并 不 合适 , 或 者 担心 离 群 点 的 影响 , 又 或 者 感觉 对 于 标准 的 
参数 方法 来 说 数据 集 太 小 ， 那 么 置换 检验 便 提 供 了 一 个 非常 不 错 的 选择 。 

R 目 前 有 一 些 非常 全 面 而 复杂 的 软件 包 可 以 用 来 做 置换 检验 。 本 节 剩 余部 分 将 关注 两 个 有 用 
的 包 : coin 和 lmPerm 包 。coin 包 对 于 独立 性 问题 提供 了 一 个 非常 全 面 的 置换 检验 的 框架 ， 而 
lmPerm 包 则 专门 用 来 做 方差 分 析 和 回归 分 析 的 置换 检验 。 我 们 将 依次 对 其 进行 介绍 ， 并 在 本 节 
最 后 简 述 R 中 其 他 可 用 于 置换 检验 的 包 。 

要 安装 coin 包 ， 可 以 使 用 : 

install.packages (c ("coin") 

然而 可 翡 的 是 ，lmPerm 包 的 作者 Bob Wheeler 于 2012 年 去 世 了 ， 并 且 源 代码 已 被 移动 到 不 支 
持 包 的 CRAN 归 档 。 因 此 ， 包 的 安装 比 平时 更 为 复杂 ， 操 作 步 又 如 下 。 

(1) 从 http://cran.r-project.org/src/contrib/Archive/lImPerm 下 和 载 文 件 ImPerm 1.1-2.tar.gz， 并 将 其 
保存 在 硬盘 上 。 

(2) MS Windows 用 户 : 从 http://cran.r-project.org/bin/windows/RTools 安 装 RTools。Mac 和 Linux 
用 户 可 以 跳 过 此 步 又 。 

(3) 在 R 内 部 执行 函数 : 

install.packages (file.choose(), repos=NULL, type="source") 


当 弹 出 对 话 框 ， 找 到 并 选择 ImPerm_1.1-2.tar.gz 文 件 。 把 这 个 包 安 在 我 们 的 计算 机 上 。 






























































设置 随机 数 种 子 
在 继续 话题 之 前 , 请 牢记 : 置换 检验 都 是 使 用 伪 随 机 数 来 从 所 有 可 能 的 排列 组 合 中 进行 拍 
样 ( 当 作 近似 检验 时 )。 因 此 ， 每 次 检验 的 结果 都 有 所 不 同 。 在 R 中 设置 随机 数 种 子 便 可 固定 
所 生成 的 随机 数 。 这 样 在 你 向 别人 分 享 自己 的 示例 时 ,结果 便 可 以 重 现 。 设 定 随 机 数 种 子 为 1234 
( 即 set.seedq(1234) )， 可 以 重 现 本 章 所 有 的 结果 。 


12.2 用 coin 包 做 置换 检验 


对 于 独立 性 问题 ，coin 包 提供 了 一 个 进行 置换 检验 的 一 般 性 框架 。 通 过 该 包 ， 你 可 以 回答 
如 下 问题 。 
口 响应 值 与 组 的 分 配 独 立 吗 ? 
口 两 个 数值 变量 独立 吗 ? 
口 两 个 类 别 型 变量 独立 吗 ? 
使 用 包 中 提供 的 函数 ( 见 表 12-2 )， 我 们 可 以 很 便捷 地 进行 置换 检验 ， 它 们 与 第 7 章 的 大 部 分 
传统 统计 检验 是 等 价 的 。 
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表 12-2 ”相对 于 传统 检验 ， 提 供 可 选 置换 检验 的 coin 函 数 





























检 验 coin 函 数 
两 样本 和 K 样 本 置换 检验 oneway_test(y ~ A) 
含 一 个 分 层 (区 组 ) 因子 的 两 样本 和 K 样 本 置换 检验 oneway_test(y - A lO) 
Wilcoxon-Mann-Whitney 秩 和 检验 wilcox_test(ly ~ A) 
Kruskal-Wallis 检 验 kruskal_test(y ~ A) 
Pearson 卡 方 检验 chisq test (A ~ B) 
Cochran-Mantel-Haenszel 检 验 cmh_test(A ~ B | C) 
线性 关联 检验 lbl_test (D ~ E) 
Spearman 检 验 spearman_ test(y ~ x) 
Friedman 检 验 friedman test(ly ~A | CcC) 
Wilcoxon 符 号 秩 检 验 wilcoxsign_ test (yl ~ y2) 











注 : 在 coin 函 数 中 ,y 和 x 是 数值 变量 ，A 和 B 是 分 类 因子 ，c 是 类 别 型 区 组 变量 ，D 和 BE 是 有 序 因子 ，y1 和 y2 是 相 匹配 的 
数值 变量 。 


表 12-2 列 出 来 的 每 个 函数 都 是 如 下 形式 : 

function name( formula, data, distribution= ) 
其 中 : 
口 formula 描 述 的 是 要 检验 变量 间 的 关系 ， 示 例 可 参见 表 12-2; 
口 aata 是 一 个 数据 框 ; 
Daistribution 指 定 经 验 分 布 在 零 假 设 条 件 下 的 形式 ， 可 能 值 有 exact 、asymptotic 和 

approximateo 

若 distripbution="exact"， 那 么 在 零 假 设 条 件 下 ,分 布 的 计算 是 精确 的 ( 即 依据 所 有 可 
能 的 排列 组 合 )。 当 然 ， 也 可 以 根据 它 的 渐进 分 布 (distribution="asymptotic" ) 或 蒙特 卡 
洛 重 抽样 (aistribution="approxiamate(B=#)") 来 做 近似 计算 , 其 中 # 指 所 需 重复 的 次 数 。 
distribution="exact" 当 前 仅 可 用 于 两 样本 问题 。 



























































注意 在 coin 包 中 ， 类 别 型 变量 和 序数 变量 必须 分 别 转化 为 因子 和 有 序 因 子 。 另 外 ， 数 据 要 以 
数据 框 形式 存储 。 


在 本 节余 下 部 分 , 我 们 将 把 表 12-2 中 的 一 些 置换 检验 应 用 到 在 先前 章节 出 现 的 问题 中 ,这样 
你 可 以 对 传统 的 参数 方法 和 非 参数 方法 进行 比较 。 本 节 最 后 ， 我 们 将 通过 一 些 高 级 拓展 应 用 对 
coin 包 进行 讨论 。 
12.2.1 独立 两 样本 和 KK 样本 检验 

首先 , 根据 表 12-2 的 虚拟 数据 , 我 们 对 独立 样本 检验 和 单 因 素 精确 检验 进行 比较 。 结果 见 代 
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码 清单 12-1。 
代码 清单 12-1 虚拟 数据 中 的 t 检 验 与 单 因素 置换 检验 


> library (coin) 

> SOOre < C(O .Hy 455. dy 08 975. “64 55 ,62 :€5) 

> treatment <- factor(c(rep("A",5), rep("B",5))) 

> mydata <- data.frame(treatment, score) 

> t.test(score~treatment, data=mydata, var.equal=TRUE) 
Two Sample t-test 


data: score by treatment 
tS 32..3; df = 8 p-value 0.04705 
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval: 
-19.04 -~0;16 
sample estimates: 
mean in group A mean in group B 
与 下 61 





> oneway_test (score~treatment, data=mydata, distribution="exact") 


Exact 2-Sample Permutation Test 

data: score by treatment (A, B) 

Ze 9 p= Value cv007L143 

alternative hypothesis: true mu is not equal to 0 

传统 {检验 表明 存在 显著 性 差异 (p<0.05 )， 而 精确 检验 却 表 明 差 异 并 不 显著 (p>0.072 )。 由 
于 只 有 10 个 观测 ， 我 更 倾向 于 相信 和 置换 检验 的 结果 ， 在 做 出 最 后 结论 之 前 ， 还 要 多 收集 些 数据 。 

现在 来 看 Wilcoxon-Mann-Whitney U 检 验 。 第 7 章 中 ， 我 们 用 wi1lcox .test () 函数 检验 了 美 
国 南部 监禁 概率 与 非 南 部 间 的 差异 。 现 使 用 Wilcoxon 秩 和 检验 ， 可 得 : 

> library (MASS) 


> UScrime <- transform(UScrime, So = factor(So)) 
> wilcox_ test (Prob ~ So, data=UScrime, distribution="exact") 

















Exact Wilcoxon Mann-Whitney Rank Sum Test 


data: Prob by So (0, 1) 
Z = -3.7, p-value = 8.488e-05 
alternative hypothesis: true mu is not equal to 0 


结果 表明 监禁 在 南部 可 能 更 多 。 注意 在 上 面 的 代码 中 , 数值 变量 so 被 转化 为 因子 , 因为 coin 
包 规 定 所 有 的 类 别 型 变量 都 必须 以 因子 形式 编码 。 另 外 ， 聪 明 的 读者 可 能 会 发 现 此 处 结果 与 第 7 
章 wilcox.test () 计 算 结 果 一 样 ， 这 是 因为 wilcox.test() 默 认 计算 的 也 是 精确 分 布 。 

最 后 ， 探 究 K 样 本 检验 问题 。 在 第 9 章 ， 对 于 50 个 患者 的 样本 ， 我 们 使 用 了 单 因 素 方 差分 析 
来 评价 五 种 药物 疗法 对 降低 胆固醇 的 效果 。 下 面 代码 对 其 做 了 近似 的 K 样 本 置换 检验 : 

> library (multcomp) 


> set.seed(1234) 
> oneway_test (response~trt, data=cholesterol, 
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Qistribution=approximate(B=9999) ) 
Approximative K-Sample Permutation Test 
data: response by 


trt (ltime, 2times, 4times, drugD, drugE) 
maxT = 4.7623, p-value < 2.2e-16 


此 处 , 参考 分 布 得 自 于 数据 9999 次 的 置换 。 设 定 随机 数 种 子 可 让 结果 重 现 。 结果 表 明 各 组 间 











病人 的 响应 值 显著 不 同 。 


12.2.2” 列 联 表 中 的 独立 性 


通过 chisq_test () 或 cmh_test () 函数 ,我 们 可 用 置换 检验 判断 两 类 别 型 变量 的 独立 性 
当 数 据 可 根据 第 三 个 类 别 型 变量 进行 分 层 时 ， 需 要 使 用 后 一 个 函数 。 若 变量 都 是 有 序 型 ， 可 使 用 
lbl_test () 因数 来 检验 是 否 存 在 线性 趋势 。 

第 7 章 中 ,我们 用 卡 方 检验 评价 了 关节 炎 的 治疗 ( treatment ) 与 效果 ( improvement ) 间 的 关 
系 。 治 疗 有 两 个 水 平 (安慰 剂 、 治 疗 )， 效果 有 三 个 水 平 (无 、 部 分 、 显 著 )， 变 量 Improved 以 








3 


O 


























有 序 因子 形式 编码 。 


若 想 实施 卡 方 检 验 的 置换 版 本 ， 可 用 如 下 代码 : 


> library (coin) 
library (vcd) 
> Arthritis <- transform(Arthritis, 
Improved=as.factor(as.numeric(Improved))) 
> set.seed(1234) 
> chisqg test (Treatment~Improved, data=Arthritis, 
distripbution=approximate (B=9999)) 





V 


Approximative Pearson's Chi-Squared Test 


data: Treatment by Improved (1, 2, 3) 
chi-squared = 13.055, p-value = 0.0018 


此 处 经 过 9999 次 的 置换 ,可 获得 一 个 近似 的 卡 方 检验 。 你 可 能 会 有 疑问 ,为 什么 需要 把 变量 
Improved 从 一 个 有 序 因子 变 成 一 个 分 类 因子 ?( 好 问题 ! ) 这 是 因为 ,如 果 你 用 有 序 因 子 , coin () 








将 会 生成 一 个 线性 与 线性 趋势 检验 , 而 不 是 卡 方 检验 ,虽然 趋 势 检 验 在 本 例 中 是 一 个 不 错 的 选择 ， 
但 是 此 处 使 用 卡 方 检验 可 以 同 第 7 章 所 得 的 结果 进行 比较 。 

















12.2.3 ”数值 变量 间 的 独立 性 
spearman_test () 函数 提供 了 两 数值 变量 的 独立 性 置换 检验 。 第 7 章 中 , 我 们 检验 了 美国 文 








盲 率 与 谋杀 率 间 的 相关 性 。 如 下 代码 可 进行 相关 性 的 置换 检验 : 





> states <- as.data.frame (state.x77) 
> set.seed(1234) 
> spearman test (Illiteracy~Murder, data=states, 


12.3 lmPerm 包 的 置换 检验 267 





distribution=approximate (B=9999)) 
Approximative Spearman Correlation Test 


data: Illiteracy by Murder 
2 = 4.7065, p-value < 2.2e-16 
alternative hypothesis: true mu is not equal to 0 


基于 9999 次 重复 的 近似 置换 检验 可 知 : 独立 性 假设 并 不 被 满足 。 注意，state.x77 是 一 个 和 矩 
阵 ， 在 coin 包 中 ， 必 须 将 其 转化 为 一 个 数据 框 


12.2.4 两 样本 和 K 样本 相关 性 检验 


当 处 于 不 同 组 的 观测 已 经 被 分 配 得 当 , 或 者 使 用 了 重复 测量 时 , 样本 相关 检验 便 可 派 上 用 场 。 
对 于 两 配对 组 的 置换 检验 ， 可 使 用 wilcoxsign_ test() 国 数 ; 多 于 两 组 时 ， 使 用 
friedman_test () 函数 。 

第 7 章 中 ， 我 们 比较 了 城市 男性 中 14 ~ 24 年 龄 段 (U1 ) 与 35 ~ 39 年 龄 段 (U2 ) 间 的 失业 率 差 
异 。 由 于 两 个 变量 对 于 美国 $0 个 州都 有 记录 ， 你 便 有 了 一 个 两 依赖 组 设计 ( state 是 匹配 变量 )， 
可 使 用 精确 Wilcoxon 符 号 秩 检 验 来 判断 两 个 年 龄 段 间 的 失业 率 是 否 相等 : 

> library (coin) 


> library (MASS) 
> wilcoxsign test (U1~U2, data=UScrime, distribution="exact") 


出 | 




















Exact Wilcoxon-Signed-Rank Test 


data: yy by x (neg, pos) 
stratified by block 
Z = 5.9691, p-value = 1.421e-14 
alternative hypothesis: true mu is not equal to 0 


结果 表明 两 者 的 失业 率 是 不 同 的 。 














12.2.5 ”深入 探究 

coin 包 提供 了 一 个 置换 检验 的 一 般 性 框架 ， 可 以 分 析 一 组 变量 相对 于 其 他 任意 变量 ， 是 否 
与 第 二 组 变量 ( 可 根据 一 个 区 组 变量 分 层 ) 相互 独立 。 特 别 地 ，independence_test () 函数 可 
以 让 我 们 从 置换 角度 来 思考 大 部 分 传统 检验 , 进而 在 面 对 无 法 用 传统 方法 解决 的 问题 时 , 使 用 户 
可 以 自己 构建 新 的 统计 检验 。 当 然 ， 这 种 灵活 性 也 是 有 门槛 的 : 要 正确 使 用 该 函数 必须 具备 丰富 
的 统计 知识 。 更 多 函数 细节 请 参阅 包 附 带 的 文档 (运行 vignette("coin") 即 可 )。 

下 一 节 ， 你 将 学 习 lmPerm 包 ， 它 提供 了 线性 模型 的 置换 方法 ， 包 括 回归 和 方差 分 析 。 


12.3 lmPerm 包 的 置换 检验 
lmPerm 包 可 做 线性 模型 的 置换 检验 。 比 如 1mp () 和 aovp () 函数 即 1m() 和 aov () 函数 的 修改 
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版 能够 进行 置换 检验 ， 而 非 正 态 理论 检验 。 

lmp () 和 aovp () 函数 的 参数 与 1m() 和 aov () 函数 类 似 ， 只 额外 添加 了 perm= 参 数 。perm= 
选项 的 可 选 值 有 Exact 、Prob 或 SPR。 Exact 根 据 所 有 可 能 的 排列 组 合生 成 精确 检验 。 Prob 从 所 
有 可 能 的 排列 中 不 断 抽 样 ， 直 至 估计 的 标准 差 在 估计 的 p 值 0.1 之 下 , 判 停 准 则 由 可 选 的 ca 参数 控 
制 。SPR 使 用 贯 序 概率 比 检验 来 判断 何 时 停止 抽样 。 注 意 ， 若 观测 数 大 于 10，perm="Bxact" 将 
自动 默认 转 为 perm= "Prob" ， 因 为 精确 检验 只 适用 于 小 样本 问题 。 

为 深入 了 解 函 数 的 工作 原理 , 我 们 将 对 简单 回归 、 多 项 式 回归 、 多 元 回归 、 单 因素 方差 分 析 、 
单 因素 协 方差 分 析 和 双 因 素 因 子 设计 进行 置换 检验 。 


12.3.1 简单 回归 和 多 项 式 回归 


第 8 章 中 ， 我 们 使 用 线性 回归 研究 了 15 名 女性 的 身高 和 体重 间 的 关系 。 用 lmp () 代 替 lm() ， 
可 获得 代码 清单 12-2 中 置换 检验 的 结果 。 


代码 清单 12-2 简单 线性 回归 的 置换 检验 
> library (lmPerm) 
> set.seed(1234) 
> fit <- lmp (weight~height, data=women, perm="Prob") 
[1] "Settings: unique SS : numeric variables centered" 
> summary (fit) 












































ds 
lmp(formula = weight ~ height, data = women, perm = "Prob") 
Residuals: 

Min 1Q Median 30Q Max 


Sra lid S0388 “O42 3 LL7 


Coefficients: 
Estimate Iter Pr (Prob) 
Height 3245 5000 2 LO 
SINT "GOde8: . PO SEY Ou O00. TAKS OOT VET LOOS AO 


Residual standard error: 1.5 on 13 degrees of freedom 
Multiple R-Squared: 0.991, Adjusted R-squared: 0.99 
F-statistic: 1.43e+03 on 1 angd 13 DF, p-value: 1.09e-14 


要 拟 合 二 次 方程 ， 可 使 用 代码 清单 12-3 中 的 代码 。 
代码 清单 12-3 ”多 项 式 回归 的 置换 检验 


> library (lmPerm) 

> set.seed(1234) 

> fit <- lmp(weight~height + I(height^2), data=women, perm="Prob") 
[1] "Settings: unique SS : numeric variables centered" 

> summary (fit) 
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Ga 二] 
lmp(formula = weight ~ height + I(height^2), data = women, perm = "Prob") 
Residuals: 

Min 10 Median 30 Max 


0:5094 ~0752961, =0,0094 ‘0.2862 055971 


Coefficients: 

Estimate Iter Pr (Prob) 
height -7.3483 5000 < 6 
I(height^2) 0.0831 5000 <2e-16 *** 


Stonif; COES YO RR O00 OLY PRY “OOD 0 


Residual standard error: 0.38 on 12 degrees of freedom 
Multiple R-Squared: 0.999 ， Adjusted R-squared: 0.999 
F-statistic: 1.14e+04 on 2 and 12 DF, p-value: <2e-16 


可 以 看 到 , 用 置换 检验 来 检验 这 些 回 归 是 非常 容易 的 , 修改 一 点 代码 即 可 。 输 出 结果 也 与 1m() 
函数 非常 相似 。 值 得 注意 的 是 ,增添 的 Ttez 栏 列 出 了 要 达到 判 停 准 则 所 需 的 和 欠 代 次 数 。 




















12.3.2 ”多 元 回归 


在 第 8 章 ， 多 元 回归 被 用 来 通过 美国 30 个 州 的 人 口 数 、 文 育 率 、 收 入 水 平和 结 霜 天 数 预测 犯 
罪 率 。 将 lmp () 函数 应 用 到 此 问题 ,结果 参见 代码 清单 12-4。 


代码 清单 12-4 多 元 回归 的 置换 检验 
> library (lmPerm) 
set.seed(1234) 
states <- as.data.frame (state.x77) 
fit <- lmp (Murder~Population + Illiteracy+Income+Frost, 
data=states, perm="Prob") 
[1] "Settings: unique SS : numeric variables centered" 
> summary (fit) 























Vr a 





Calls 

lmp(formula = Murder ~ Population + Illiteracy + Income + Frost, 
data = states, perm = "Prob") 

Residuals: 


Min 10 Median 30Q Max 
-4.79597 -1.64946 -0.08112 1.48150 7.62104 


Coefficients: 

Estimate Iter Pr (Prob) 
Population 2.237e-04 与 下 1.0000 
Illiteracy 4.143e+00 5000 O000 相 六 
Income 6.442e-05 与 下 1.0000 
Frost 5.813e-04 5.L 0.8627 


Sn 人 COES 0 R000 0 
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Residual standard error: 2.535 on 45 degrees of freedom 
Multiple R-Squared: 0.567, Adjusted R-squared: 0.5285 
F-statistic: 14.73 on 4 and 45 DF, p-value: 9.133e-08 


回顾 第 8 章 ， 正 态 理 论 中 Population 和 I11iteracy 均 显著 (p<0.05 )。 而 该 置换 检验 中 ， 
Population 不 再 显著 。 当 两 种 方法 所 得 结果 不 一 致 时 ， 你 需要 更 加 谨慎 地 审视 数据 ， 这 很 可 能 























是 因为 违反 了 正 态 性 假设 或 者 存在 离 群 点 。 
12.3.3” 单 因素 方差 分 析 和 协 方 差分 析 





第 9 章 中 任意 一 种 方差 分 析 设 计 都 可 进行 置换 检验 。 首 先 ， 让 我 们 看 看 9.1 节 中 的 单 因素 方差 
分 析 问 题 一 一 各 种 疗法 对 降低 胆固醇 的 影响 。 代 码 和 结果 见 代码 清单 12-5。 











代码 清单 12-5 ” 单 因 素 方差 分 析 的 置换 检验 
> library (lmPerm) 
> library (multcomp) 
> set.seed(1234) 


> fit <- aovp(response~trt, data=cholesterol, perm="Prob") 


[1] "Settings: unique SS " 
> anova (fit) 
Component 1 : 
Df R Sum Sq R Mean Sq Iter Pr (Prob) 


tt 4 1351.37 33.7584 5000. 252-6 


Residuals 45 468.75 10.42 
Slogrif. OE 0 HEE OO TEHTIONOL TH OOS. 


结果 表明 各 疗法 的 效果 不 全 相同 。 

















协 方差 分 析 的 置换 检验 取 自 第 9 章 的 问题 : 当 控制 妊娠 
鼠 患 体重 的 影响 。 代 码 和 结果 参见 代码 清单 12-6。 


代码 清单 12-6 单 因素 协 方差 分 析 的 置换 检验 
> library (lmPerm) 
> set.seed(1234) 








期 时 间 相 同时 ， 观 测 四 种 药物 剂量 对 


> fit <- aovp (welight ~ gesttime + dose, data=litter, perm="Prob") 
[1] "Settings: unique SS : numeric variables centered" 


> anova (fit) 
Component 1 : 

Df R Sum Sq R Mean Sq Iter Pr (Prob) 
gesttime a 161.49 i161 .493. 5000 0 0006 x 
dose 3 L372 45..708: 5000. :0603927 %* 
Residuals 69... B15]. 2 16.685 


四 本本 站 二 下 COdES: OF WERYY O00 Hy OOL KE OO 


yO 


依据 p 值 可 知 ， 当 控制 娃 娠 期 时 间 相 同时 ， 四 种 药物 剂量 对 鼠 患 的 体重 影响 不 相同 。 








12.4 置换 检验 点 评 271 





12.3.4” 双 因素 方差 分 析 


本 节 最 后 , 我 们 对 析 因 实验 设计 进行 置换 检验 。 以 第 9 童 中 的 维生素 C 对 豚鼠 牙齿 生长 的 影响 
为 例 ， 该 实验 两 个 可 操作 的 因子 是 剂量 ( 三 水 平 ) 和 喂食 方式 〈 两 水 平 )。10 只 豚鼠 分 别 被 分 配 
到 每 种 处 理 组 合 中 ， 形 成 一 个 3x2 的 析 因 实验 设计 。 置 换 检验 结果 参见 代码 清单 12-7。 


代码 清单 12-7 双 因 素 方 差分 析 的 置换 检验 
> library (lmPerm) 
> set.seed(1234) 
> fit <- aovp (len~supp*dose, data=ToothGrowth, perm="Prob") 
[1] "Settings: unique SS : numeric variables centered" 
> anova (fit) 
Component 1 : 
Df R Sum Sq R Mean Sq Iter Pr (Prob) 
































supp 1 DB 208530" 35000 Re EFTOm 

dose 1! 记 224530 222430 D000 :< enL6 洲 光 才 

supp:dose 中 88 .92 88.9252033 .00594792 水 

Residuals 56 933 .63 16.67 

SG 和 5 


在 0.05 的 显著 性 水 平 下 ， 三 种 效应 都 不 等 于 0; 在 0.01 的 水 平 下 ， 只 有 主 效应 显著 。 

值得 注意 的 是 ， 当 将 aovp () 应 用 到 方差 分 析 设计 中 时 ， 它 默认 使 用 唯一 平方 和 法 〈 也 称 为 
SAS 类 型 亚 平 方 和 )。 每 种 效应 都 会 依据 其 他 效应 做 相应 调整 。R 中 默认 的 参数 化 方差 分 析 设计 使 
用 的 是 序 贯 平方 和 (SAS 类 型 1 平方 和 )。 每 种 效应 依据 模型 中 先 出 现 的 效应 做 相应 调整 。 对 于 
平衡 设计 ,两 种 方法 结果 相同 , 但 是 对 于 每 个 单元 格 观 测 数 不 同 的 不 平衡 设计 ,两 种 方法 结果 则 
不 同 。 不 平衡 性 越 大 ， 结 果 分 歧 越 大 。 若 在 aovp () 函数 中 设 定 seas=TRUE， 可 以 生成 你 想 要 的 
谭 贯 平方 和 。 关 于 类 型 [ 和 类 型 亚 平 方 和 的 更 多 细节 ， 请 参考 9.2 节 。 


12.4 置换 检验 点 评 


除 coin 和 lmPerm 包 外 , R 还 提供 了 其 他 可 做 置换 检验 的 包 。perm 包 能 实现 coin 包 中 的 部 分 
功能 , 因此 可 作为 coin 包 所 得 结果 的 验证 corrperm 包 提供 了 有 重复 测量 的 相关 性 的 置换 检验 。 
logregperm 包 提供 了 Logistic 回 归 的 置换 检验 。 另外 一 个 非常 重要 的 包 是 glmperm, 它 涵盖 了 广 
义 线性 模型 的 置换 检验 。 对 于 广义 线性 模型 ， 请 参见 第 13 章 。 

依靠 基础 的 抽样 分 布 理 论 知识 , 置换 检验 提供 了 另外 一 个 十 分 强大 的 可 选 检验 思路 。 对 于 上 
面 描述 的 每 一 种 置换 检验 ， 我们 完全 可 以 在 做 统计 假设 检验 时 不 理会 正 态 分 布 、t 分 布 、F 分 布 或 
者 卡 方 分 布 。 

你 可 能 已 经 注意 到 , 基于 正 态 理论 的 检验 与 上 面 置换 检验 的 结果 非常 接近 。 在 这 些 问 题 中 数 
据 表 现 非常 好 ， 两 种 方法 结果 的 一 致 性 也 验证 了 正 态 理论 方法 适用 于 上 述 示例 。 

当然 ， 置 换 检验 真正 发 挥 功用 的 地 方 是 处 理 非 正 态 数据 ( 如 分 布 往 倚 很 大 )、 存 在 离 群 点 、 
样本 很 小 或 无 法 做 参数 检验 等 情况 。 不 过 ， 如 果 初 始 样本 对 感 兴趣 的 总 体 情 况 代 表 性 很 差 ， 即 使 
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是 置换 检验 也 无 法 提高 推断 效果 。 

置换 检验 主要 用 于 生成 检验 零 假 设 的 p 值 ， 它 有 助 于 回答 “效应 是 否 存在 ”这 样 的 问题 。 不 
过 ， 置 换 方法 对 于 获取 置信 区 间 和 佑 计 测 量 精度 是 比较 困难 的 。 幸 运 的 是 ,这 正 是 自助 法 大 显 神 
通 的 地 方 。 


12.5 自助 法 


所 谓 自 助 法 , 即 从 初始 样本 重复 随机 替换 抽样 ,生成 一 个 或 一 系列 待 检验 统计 量 的 经 验 分 布 。 
无 需 假设 一 个 特定 的 理论 分 布 ， 便 可 生成 统计 量 的 置信 区 间 ， 并 能 检验 统计 假设 。 

举 一 个 例子 便 可 非常 清楚 地 阐释 自助 法 的 思路 。 比 如 ， 你 想 计 算 一 个 样本 均值 95% 的 置信 区 
间 。 样 本 现 有 10 个 观测 ， 均 值 为 40， 标 准 差 为 5$。 如 果 假 设 均值 的 样本 分 布 为 正 态 分 布 ， 那 么 
(1-0/2)% 的 置信 区 间 计 算 如 下 : 










































































-1 <1< Yt 

其 中 , t 是 自由 度 为 -1 的 分布 的 1-a 上 界 值 。 对 于 95% 的 置信 区 间 ， 可 得 40-2.262(5/3.163)< 
H<40+2.262(5/3.162) 或 者 36.424<y<43.577。 以 这 种 方式 创建 的 95% 置 信 区 间 将 会 包含 真实 的 总 体 
均值 。 

倘若 你 假设 均值 的 样本 分 布 不 是 正 态 分 布 ， 该 怎么 办 呢 ? 可 使 用 自助 法 。 

(1) 从 样本 中 随机 选择 10 个 观测 ， 抽 样 后 再 放 回 。 有 些 观测 可 能 会 被 选择 多 次 ， 有 些 可 能 一 
直 都 不 会 被 选中 。 

(2) 计算 并 记录 样本 均值 。 

(3) 重复 1 和 2 一 千 次 。 

(4) 将 1000 个 样本 均值 从 小 到 大 排序 。 

(5) 找 出 样本 均值 2.5% 和 97.5% 的 分 位 点 。 此 时 即 初始 位 置 和 最 末 位 置 的 第 25 个 数 , 它们 就 限 
定 了 95% 的 置信 区 间 。 

本 例 中 ,样本 均值 很 可 能 服从 正 态 分 布 ， 自 助 法 优势 不 太 明 显 。 但 在 其 他 许多 案例 中 ,自助 
法 优势 会 十 分 明显 。 比 如 ,你 想 估 计 样 本 中 位 数 的 置信 区 间 , 或 者 两 样本 中 位 数 之 差 , 该 怎么 做 
呢 ? 正 态 理论 没有 现成 的 简单 公式 可 套用 ， 而 自助 法 此 时 却 是 不 错 的 选择 。 即 使 潜在 分 布 未 知 ， 
或 出 现 了 离 群 点 , 或 者 样本 量 过 小 ,再 或 者 是 没有 可 供 选 择 的 参数 方法 ,自助 法 将 是 生成 置信 区 
间 和 做 假设 检验 的 一 个 利器 。 


12.6 booet 包 中 的 自助 法 


boot 包 扩展 了 自助 法 和 重 抽样 的 相关 用 途 。 你 可 以 对 一 个 统计 量 ( 如 中 位 数 ) 或 一 个 统计 
量 向 量 ( 如 一 列 回 归 系 数 ) 使 用 自助 法 。 使 用 自助 法 前 请 确保 下 载 并 安装 了 boot 包 : 
install .packages ("boot") 


自助 法 过 程 看 起 来 复杂 ， 但 你 一 看 例子 就 会 十 分 明了 。 

























































































12.6 boot 包 中 的 自助 法 273 





一 般 来 说 ， 自 助 法 有 三 个 主要 步骤 。 

(1) 写 一 个 能 返回 待 研究 统计 量 值 的 函数 。 如 果 只 有 单个 统计 量 ( 如 中 位 数 )， 函 数 应 该 返回 
一 个 数值 ; 如果 有 一 列 统计 量 ( 如 一 列 回归 系数 )， 函 数 应 该 返回 一 个 向 量 。 

(2) 为 生成 R 中 自助 法 所 需 的 有 效 统计 量 重复 数 , 使 用 boot () 函数 对 上 面 所 写 的 郴 数 进行 处 理 。 

(3) 使 用 boot . ci () 函数 获取 步骤 CD) 生成 的 统计 量 的 置信 区 间 。 

现在 举例 说 明 。 

主要 的 自助 法 函数 是 boot () ， 它 的 格式 为 : 


bootobject <- boot (data=, statistic=, R=, ...) 


参数 描述 见 表 12-3。 


























表 12-3 boot () 函数 的 参数 
参数 描 述 
data 向 量 、 和 矩阵 或 者 数据 框 
statistic 生成 个 统计 量 以 供 自 举 的 函数 (k=1 时 对 单个 统计 量 进行 自助 抽样 )。 函 数 需 包括 indices 参 数 , 以 便 
boot () 函数 用 它 从 每 个 重复 中 选择 实例 (例子 见 下 文 ) 
> 自助 抽样 的 次 数 
其他 对 生成 待 研 究 统计 量 有 用 的 参数 ， 可 在 函数 中 传输 


boot () 函数 调用 统计 量 函 数 R 次 ,每 次 都 从 整数 1 :nrow (data) 中 生成 一 列 有 放 回 的 随机 指 
标 ， 这 些 指标 被 统计 量 函 数 用 来 选择 样本 。 统 计量 将 根据 所 选 样本 进行 计算 ， 结 果 存 储 在 
bootobject 中 。bootobject 结 构 的 描述 见 表 12-4。 
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表 12-4 boot () 函数 中 返回 对 象 所 含 的 元 素 





元 素 描 述 
t0 从 原始 数据 得 到 的 k 个 统计 量 的 观测 值 
t 一 个 Rxk 和 矩阵 ， 每 行 即 k 个 统计 量 的 自助 重复 值 





你 可 以 如 pootobjects$t0 和 bootobjectst 这 样 来 获取 这 些 元 素 。 

一 旦 生成 了 自助 样本 ， 可 通过 print () 和 plot () 来 检查 结果 。 如 果 结 果 看 起 来 还 算 合理 ， 
使 用 boot .ci () 函数 获取 统计 量 的 置信 区 间 。 格 式 如 下 : 

boot.ci(bootobject, conf=, type= ) 


参数 见 表 12-5。 








表 12-5 ”boot .ci() 洱 数 的 参数 


























参数 描述 
SOS boot () 国 数 返 回 的 对 象 
conf 预期 的 置信 区 间 (默认 : conf=0.95) 











type 返回 的 置信 区 间 类 型 。 可 能 值 为 nozm、basic、stua、perc、bca 和 all (默认 ，type=vall') 2 
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type 人 参数 设 定 了 获取 置信 区 间 的 方法 。perc 方 法 (分 位 数 ) 展示 的 是 样本 均值 ，bca 将 根据 
偏差 对 区 间 做 简单 调整 。 我 发 现 bca 在 大 部 分 情况 中 都 是 更 可 取 的 。 参见 Mooney & Duval( 1993 )， 
他 们 对 以 上 方法 都 有 介绍 。 

本 节 接 下 来 介绍 如 何 对 单个 统计 量 和 统计 量 向 量 使 用 自助 法 。 


12.6.1 ”对 单个 统计 量 使 用 自助 法 


以 1974 年 Motor Trend 杂志 中 的 mtcars 数 据 集 为 例 ， 它 包含 32 辆 汽车 的 信息 。 假 设 你 正 使 用 
多 元 回归 根据 车 重 ( lb/1000 ) 和 发 动机 排 量 (cu.in.， 即 立方 英寸 ) 来 预测 汽车 每 加 仑 行驶 的 英 
里 数 ， 除 了 标准 的 回归 统计 量 ， 你 还 想 获得 95% 的 了 R 平 方 值 的 置信 区 间 ( 预测 变量 对 响应 变量 可 
解释 的 方差 比 )， 那 么 便 可 使 用 非 参数 的 自助 法 来 获取 置信 区 间 。 
首要 任务 是 写 一 个 获取 R 平 方 值 的 函数 : 
rsq <- function(formula, data, indices) { 
Q <- data[lindices,] 


fit <- lm(formula, data=d) 
return(summary (fit)sr.square) 





















































} 
函数 返回 回归 的 了 平方 值 。a <- data[lindices，] 必 须 声 明 ， 因 为 boot () 要 用 其 来 选择 
样本 


O 


你 能 做 大 量 的 自助 抽样 〈( 比如 1000 )， 代 码 如 下 : 


library (boot) 

set.seed(1234) 

results <- boot (data=mtcars, statistic=rsq, 
R=1000, formula=mpg~wt+disp) 


boot 的 对 象 可 以 输出 ， 代 码 如 下 : 
> print (results) 


ORDINARY NONPARAMETRIC BOOTSTRAP 


Call: 
boot(data = mtcars, statistic = rsq, R = 1000, formula = mpg ~ 
wt + disp) 


Bootstrap Statistics : 
original bias std. error 
t1x 0.7809306 0.01333670 0.05068926 


也 可 用 plot (results) 来 绘制 结果 ， 图 形 见 图 12-2。 
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图 12-2 ”自助 法 所 得 R 平 方 值 的 均值 


在 图 12-2 中 可 以 看 到 ， 自 助 的 R 平 方 值 不 呈正 态 分 布 。 它 的 95% 的 置信 区 间 可 以 通过 如 下 代 
码 获得 : 
> boot.ci(results, type=c("perc", "bca")) 


BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS 
Based on 1000 bootstrap replicates 























CALD : 

boot.ci(boot.out = results, type = c("perc", "bca")) 
Intervals : 

Level Percentile BCa 

95% ( 0.6838, 0.8833 ) ( 0.6344, 0.8549 ) 


Calculations and Intervals on Original Scale 
Some BCa intervals may be unstable 


从 该 例 可 以 看 到 , 生成 置信 区 间 的 不 同方 法 将 会 导致 获得 不 同 的 区 间 。 本 例 中 的 依 偏 差 调 整 
区 间 方 法 与 分 位 数 方法 稍 有 不 同 。 两 例 中 ， 由 于 0 都 在 置信 区 间 外 ， 零 假设 Ho: R 平 方 值 =0 都 被 
拒绝 。 

本 节 中 ， 我 们 估计 了 单个 统计 量 的 置信 区 间 ， 下 一 节 我 们 将 估计 多 个 统计 量 的 置信 区 间 。 
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12.6.2 ”多 个 统计 量 的 自助 法 


在 先前 的 例子 中 ， 自 助 法 被 用 来 估计 单个 统计 量 〈 了 平方 ) 的 置信 区 间 。 继 续 该 例 ， 让 我 们 
获取 一 个 统计 量 向 量 一 一 三 个 回归 系数 ( 截 距 项 、 车 重 和 发 动机 排 量 ) 一 一 95% 的 置信 区 间 。 
首先 ， 创建 一 个 返回 回归 系数 向 量 的 函数 : 
bs <- function(formula, data, indices) { 
d <- data[lindices,] 


fit <- lm(formula, data=d) 
return(coef (fit)) 








} 
然后 使 用 该 函数 自助 抽样 1000 次 : 


library (boot) 
set .seed(1234) 
results <- boot (data=mtcars, statistic=bs, 
R=1000, formula=mpg~wt+disp) 
> print (results) 
ORDINARY NONPARAMETRIC BOOTSTRAP 
| 
boot(data = mtcars, statistic = bs, R = 1000, formula = mpg ~ 
wt + disp) 





Bootstrap Statistics : 


original bias std. error 
t1x 34.9606 0.137873 2.48576 
tow -303508 =0%053904 1.17043 
t3*> = 0 O17 =03000121 0.00879 


当 对 多 个 统计 量 自助 抽样 时 ， 添 加 一 个 索引 参数 ， 指 明 plot () 和 boot .ci () 函数 所 分 析 
bootobjectst 的 列 。 在 本 例 中 ， 索 引 1 指 截 距 项 ， 索 引 2 指 车 重 ， 索 引 3 指 发 动机 排 量 。 如 下 代 
码 即 用 于 绘制 车 重 结果 : 

plot (results, index=2) 


图 形 结果 见 图 12-3。 


为 获得 车 重 和 发 动机 排 量 95% 的 置信 区 间 ， 使 用 代码 : 


> boot.ci(results, type="bca", index=2) 
BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS 
Based on 1000 bootstrap replicates 














CALL : 
boot.ci(boot.out = results, type = "bca", index = 2) 


Intervals : 

Level BCa 

95% (Dv66n 9 ) 

Calculations angd Intervals on Original Scale 
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> boot.ci(results, type="bca", index=3) 


BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS 
Based on 1000 bootstrap replicates 


CALD : 
boot.ci(boot.out = results, type = "bca", index = 3) 


Intervals : 

Level BCa 

95% (=050331, "0.50080. ) 

Calculations and Intervals on Original Scale 


Histogram of t 
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图 12-3 ”自助 法 所 得 车 重 回 归 系 数 的 分 布 











注意 在 先前 的 例子 中 ,我 们 每 次 都 对 整个 样本 数据 进行 重 抽样 。 如 果 假 定 预测 变量 有 固定 水 
平 ( 如 精心 设计 的 实验 )， 那 么 我 们 最 好 仅 对 残 差 项 进行 重 抽样 。 参 考 Mooney & Duval 
(1993，pp.16-17 )， 其 中 有 简单 的 解释 和 算法 。 


在 结束 自助 法 介绍 前 ， 我 们 来 关注 两 个 常 被 提出 的 有 价值 的 问题 。 


口 初始 样本 需要 多 大 ? -2 
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口 应 该 重复 多 少 次 ? 

对 于 第 一 个 问题 , 我 们 无 法 给 出 简单 的 回答 。 有 些 人 认为 内 要 样本 能 够 较 好 地 代表 总 体 , 初 
始 样本 大 小 为 20 ~ 30 即 可 得 到 足够 好 的 结果 。 从 感 兴趣 的 总 体 中 随机 抽样 的 方法 可 信和 度 最 高 , 它 
能 够 保证 初始 样本 的 代表 性 。 对 于 第 二 个 问题 ,我 发 现 1000 次 重复 在 大 部 分 情况 下 都 可 满足 要 求 。 
由 于 计算 机 资源 变 得 廉价 ， 如 果 你 愿意 ， 也 可 以 增加 重复 的 次 数 。 
置换 检验 和 自助 法 的 信息 资源 非常 丰富 。 一 个 非常 优秀 的 入 门 教程 是 Yu 的 在 线 文章 
“Resampling Methods: Concepts, Applications, and Justification”( 2003 )。Good 的 书 Resampling 
Methods: 4A Practical Guide to Data Analysis( 2006 ) 则 是 一 份 很 全 面 的 重 抽样 概要 参考 资料 ， 其 中 
包含 R 人 代码。 关于 自助 法 ，Mooney & Duval ( 1993 ) 给 出 了 一 个 不 错 的 简介 。 当 然 ， 基 础 性 的 自 
助 法 资料 还 是 出 自 Efron & Tibshirani ( 1998 )。 最 后 ， 还 有 许多 非常 不 错 的 在 线 资源 ， 比 如 Simon 
(1997 )、Canty ( 2002 )、Shah ( 2005 ) 和 Fox ( 2002 )。 



































12.7 ”小结 


本 章 我 们 介绍 了 一 系列 基于 随机 化 和 重 抽样 的 计算 机 密集 型 方法 , 它们 使 你 无 需 理论 分 布 的 
知识 便 能 够 进行 假设 检验 ， 获 得 置信 区 间 。 当 数据 来 自 未 知 分 布 , 或 者 存在 严重 的 离 群 点 , 或 者 
样本 量 过 小 ， 又 或 者 没有 参数 方法 可 以 回答 你 感 兴趣 的 假设 问题 时 ， 这 些 方法 是 非常 实用 的 。 

本 章 的 这 些 方法 真 的 是 令 人 振奋 , 因为 当 标准 的 数据 假设 不 满足 , 或 者 你 对 于 解决 这 些 问 题 
毫 无 头绪 时 ， 利 用 它们 可 以 另 尽 蹊 径 。 但 是 ， 置 换 检 验 和 自助 法 并 不 是 万 能 的 ， 它 们 无 法 将 烂 数 
据 转化 为 好 数据 。 如 果 初 始 样本 对 于 总 体 情况 的 代表 性 不 佳 , 或 者 样本 量 过 小 而 无 法 准确 地 反映 
总 体 情 况 ， 这 些 方法 也 是 爱 莫 能 助 。 

在 下 一 章 ， 我 们 将 学 习 一 些 数据 模型 ， 它 们 的 变量 服从 已 知 但 不 必 为 正 态 的 分 布 。 





























_ 第 四 部 分 ， 





























据 分 析 开 具 包 。 这 
第 13 章 将 第 8 章 中 

















讨论 


归 ) 时 的 案例 。 











I 








| 义 线性 模型 ， 然 后 重点 计 


在 本 书 的 这 一 部 分 ， 我 们 将 学 习 统计 分 析 和 绘 








的 世 








归 方 法 扩 

















至 非 参数 方法 ， 适 
F 解 结果 变量 为 类 别 





图 的 高 级 方法 ， 从 








部 分 的 方法 在 日 趋 增 长 的 数据 挖掘 和 预测 分 析 领域 发 挥 着 关键 的 作用 
于 非 正 态 分 布 的 数 ] 


























高 级 方法 











型 变量 (Logistic 回 









































于 多 元 变量 内 在 的 复杂 性 ， 高 维 变 
完 和 简化 多 元 数据 的 流行 方法 : 主 成 分 分 析 和 














的 处 理 


变 得 非常 























过 


章 将 逐步 介绍 实施 步 又 。 


为 一 组 较 少 的 不 相关 复合 变量 ， 





第 15 章 探 索 了 与 时 








两 个 最 流行 的 预测 方法 








间 有 关 的 数据 。 分 析 略 
章 详 细 介绍 了 对 时 间 序 列 数 和 





(指数 预测 和 





大 





子 分 析 。 





LH 



































而 让 你 拥有 一 个 完整 的 数 
































据 。 这 一 草 首 先 
归 ) 或 计数 型 变量 〈 泊 松 
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具有 挑战 性 。 第 14 章 介 绍 了 两 种 探 
EE 成 分 分 析 用 来 将 大 量 相关 变量 转化 
因子 分 析 则 通过 一 组 潜在 的 变量 来 发 现 潜 在 的 数据 结构 。 这 一 
































经 常 需要 理解 事物 趋势 和 预测 未 来 事件 。 第 15 
时 的 分 析 和 预测 。 在 描述 了 时 间 序 列 数据 
ARIMA )。 


的 一 般 特 性 之 后 ， 展 现 了 




















聚 类 分 析 是 第 16 章 的 内 容 。 主 成 分 分 析 和 因子 分 析 通 过 把 多 个 单个 变量 组 合成 复合 变量 简 
化 了 多 变量 数据 ， 而 聚 类 分 析 试 图 通过 把 多 个 观测 值 组 合成 子 组 (类 ，cluster) 的 从 而 简化 多 变 





量 数据 。 类 里 面包 含 了 彼此 相似 
确定 数据 集中 类 的 个 数 和 将 观测 
17 章 讨 论 重要 的 分 类 问题 。 在 分 类 问题 中 ， 分 析 师 尝试 建立 一 个 模型 ， 来 基于 一 组 (很 
可 能 是 一 大 组 ) 预测 变量 来 预测 





第 

















未 通过 )。 这 一 章 探讨 了 











描述 了 评估 分 类 方法 效率 的 方法 。 
在 现实 生活 中 ， 研 究 者 常 第 必须 处 






































的 观测 值 ， 而 





























新 案例 的 分 类 
很 多 方法 ， 包 括 逻 辑 











值 聚 合成 类 的 方法 。 








类 和 类 之 间 的 观测 值 有 所 不 同 。 这 一 草 介 绍 了 


























《比如 ， 好 /不 好 的 信 
归 、 决 策 树 、 随 机 和 森林 、 





























里 不 完整 数据 集 。 第 














风险 、 良 六 














/ 恶性、 通过/ 
支持 向 量 机 等 。 这 一 章 也 




















18 章 讲 解 普遍 存在 的 缺失 值 问题 的 





现代 处 理 方法 。 男 外 ，R 支持 多 种 分 析 不 完整 数据 集 的 优雅 方法 。 这 一 章 将 会 介绍 一 些 最 佳 的 



































方法 ， 同 时 还 会 就 哪些 方法 适用 、 哪 些 方法 应 避免 使 用 给 出 提示 。 





RY 


学 元 第 四 





部 分 ， 








你 便 可 应 用 这 些 工 具 来 处 理 各 种 复杂 日 





























果 变量 的 建 模 ， 处 











型 以 预测 未 来 数值 或 类 别 











的 数据 分 析 问 题 了 。 比 如 对 非 正 态 结 





里 大 量 高 相关 性 的 变量 ， 把 大 量 案例 减少 到 少量 有 类 似 性 质 的 群 组 ， 建 立 模 
， 以 及 处 理 散 乱 的 、 不 完整 的 数据 。 





广义 线性 模型 








本 章 内 容 
口 建立 广义 线性 模型 
口 预测 类 别 型 变量 


口 计数 型 数据 建 模 


























第 8 章 ( 回归 ) 和 第 9 章 (方差 分 析 ) 中 , 我 们 探究 了 线性 模型 ， 它 们 可 以 通过 一 系列 连续 型 

和 /或 类 别 型 预测 变量 来 预测 正 态 分 布 的 响应 变量 。 但 在 许多 情况 下 , 假设 因 变量 为 正 态 分 布 (其 

至 连续 型 变量 ) 并 不 合理 ， 例 如 下 面 这 几 种 情况 。 

口 结果 变量 可 能 是 类 别 型 的 。 二 值 变量 ( 比如 : 是 / 否 、 通 过 /未 通过 、 活 着 /死亡 ) 和 多 分 类 

变量 〈 比 如 差 /良好 /优秀 ) 都 显然 不 是 正 态 分 布 。 

口 结果 变量 可 能 是 计数 型 的 ( 比如 ， 一周 交通 事故 的 数目 ， 每 日 酒水 消耗 的 数量 )。 这 类 变 
量 都 是 非 负 的 有 限 值 ， 而 且 它 们 的 均值 和 方差 通常 都 是 相关 的 ( 正 态 分 布 变量 间 不 是 如 
此 ， 而 是 相互 独立 )。 

广义 线性 模型 扩展 了 线性 模型 的 框架 ， 它 包含 了 非 正 态 因 变 量 的 分 析 。 
在 本 章 中 ,我 们 将 首先 简要 概述 广义 线性 模型 并 介绍 如 何 使 用 glm() 函数 来 进行 估计 。 然 

后 重点 关注 该 框架 中 两 种 流行 的 模型 .Logistic 回 归 ( 因 变 量 为 类 别 型 ) 和 泊 松 回归 ( 因 变 量 ， 

计数 型 )。 

为 了 让 讨论 更 有 吸引 力 , 我 们 将 把 广义 线性 模型 应 用 到 两 个 用 标准 线性 模型 无 法 轻易 解决 的 




















































































































口 什么 样 的 个 人 信息 、 人 口 统计 信息 和 人 际 关系 信息 可 以 作为 变量 ， 用 来 预测 婚姻 出 轨 问 

题 ? 此 时 ， 结 果 变 量 为 二 值 型 〈 出轨/ 未 出 轨 )。 

口 药物 治疗 对 于 八 周 中 所 发 生 的 癫 痢 次 数 有 何 影响 ”此 时 , 结果 变量 为 计数 型 ( 壮 病 次 数 )。 
我 们 将 利用 Logistic 回 归来 阐释 第 一 个 问题 ， 用 泊 松 回归 阐释 第 二 个 问题 。 建 模 过 程 中 ,将 

还 考虑 对 每 种 方法 进行 扩展 。 
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13.1 广义 线性 模型 和 glm() 函数 


许多 广泛 应 用 的 、 流 行 的 数据 分 析 方 法 其 实 都 归 
短 回顾 这 些 方法 背后 的 理论 。 你 可 跳 过 本 节 ， 稍 后 再 

现 假设 你 想 要 对 响应 变量 Z 和 p 个 预测 变量 页 … 轧 
可 以 假设 理 正 态 分 布 ， 关 系 的 形式 为 : 


属于 广义 线性 模型 框 如 。 本 节 中 , 我 们 将 简 
回头 阅读 ， 这 对 于 模型 理解 没有 太 大 影响 。 

















间 的 关系 进行 建 模 。 在 标准 线性 模型 中 ,你 


Hy =p, + BX, 


该 等 式 表明 响应 变量 的 条 件 均 值 是 预测 变量 的 线性 组 合 。 参 数 p 指 一 单位 钱 的 变化 造成 的 Y 
预期 的 变化 ，po 指 当 所 有 预测 变量 都 为 0 时 7 的 预期 值 。 对 于 该 等 式 ， 你 可 通俗 地 理解 为 : 给 定 一 
系列 X 变 量 的 值 ， 赋 予 Y 变 量 合适 的 权重 ， 然 后 将 它们 加 起 来 ， 便 可 预测 7 观测 值 分 布 的 均值 。 

值得 注意 的 是 ， 你 并 没有 对 预测 变量 多 做 任何 分 布 的 假设 。 与 7 不 同 ， 它 们 不 需要 呈正 态 分 
布 。 实 际 上 ， 它 们 常 为 类 别 型 变量 ( 比如 方差 分 析 设 计 )。 另外， 对 预测 变量 使 用 非 线性 函数 也 
是 允许 的 ， 比 如 你 常会 使 用 预测 变量 凶 或 者 名 x 对， 只 要 等 式 的 参数 ( po, P1,…, ps ) 为 线性 即 可 。 


广义 线性 模型 拟 合 的 形式 为 : 


gs(1y)=B + 


























BX, 


其 中 g(y) 是 条 件 均值 的 函数 ( 称 为 连接 函数 )。 另外， 你 可 放松 7 为 正 态 分 布 的 假设 ， 改 为 Y 
服从 指数 分 布 族 中 的 一 种 分 布 即 可 。 设 定 好 连接 函数 和 概率 分 布 后 , 便 可 以 通过 最 大 似 然 估计 的 


多 次 迭代 推导 出 各 参数 值 。 





13.1.1 glm() 函数 


R 中 可 通过 glm() 函数 (还 可 用 其 他 专门 的 函数 ) 
只 是 多 了 一 些 参数 。 函 数 的 基本 形式 为 : 






































拟 合 广义 线性 模型 。 它 的 形式 与 Im() 类 似 ， 


glm(formula, family=family(link=function), data=) 
表 13-1 列 出 了 概率 分 布 ( fami1y ) 和 相应 默认 的 连接 函数 ( function )。 
表 13-1 glm() 的 参数 








分 布 族 默认 的 连接 函数 
binomial (eh od c= eye mil enn! 
gaussian CLInK. SY identity 
gamma (link = "inverse") 
inverse.gaussian (CLINnK Xm 
poisson (Tink E16o0) 
aquasi (link = "identity", variance = "constant") 
quasibinomial (LR dE 
quasipoisson (Th:E LOG) 











glm() 函数 可 以 拟 合 许多 流行 的 模型 , 比如 Logistic 回 归 、 泊 松 回归 和 生存 分 析 ( 此 处 不 考虑 )。 
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下 面 对 前 两 个 模型 进行 前 述 。 假 设 你 有 一 个 啊 应 变量 (Y )、 三 个 预测 变量 (x1、x2、Xx3 ) 和 一 
个 包含 数据 的 数据 框 (myqata )。 

Logistic 回 归 适 用 于 二 值 响应 变量 (0 和 1 )。 模 型 假设 Y 服 从 二 项 分 布 ， 线 性 模型 的 拟 合 形 
式 为 : 








og. (5 -]- 局 +> BX, 


其 中 n=wy 是 7 的 条 件 均 值 ( 即 给 定 一 系列 X 的 值 时 天 1 的 概率 ), (0w1- 如 为 入 1 时 的 优势 比 ,log(Crv1- 们 
为 对 数 优势 比 ,或 logit。 本 例 中 ，log(w/1-n) 为 连接 函数 ， 概 率 分 布 为 二 项 分 布 ， 可 用 如 下 代码 拟 
合 Logistic 回 归 模 型 : 

glm(Y~X1+X2+X3, family=binomial (link="logit"), data=mydata) 

Logistic 回 归 在 13.2 节 有 更 详细 的 介绍 。 

泊 松 回归 适用 于 在 给 定时 间 内 响应 变量 为 事件 发 生 数目 的 情形 。 它 假设 ?服从 泊 松 分 布 ， 线 
性 模型 的 拟 合 形式 为 : 

















log.(D=p, + 2 BX, 


其 中 4 是 7 的 均值 (也 等 于 方差 )。 此 时 ， 连 接 函 数 为 1og()， 概 率 分 布 为 泊 松 分 布 ， 可 用 如 下 代码 
拟 合 泊 松 回归 模型 : 

glm(Y~X1+X2+X3, family=poisson(link="log"), data=mydata) 

泊 松 回归 在 13.3 节 有 介绍 。 

值得 注意 的 是 ， 标 准 线性 模型 也 是 广义 线性 模型 的 一 个 特例 。 如 果 令 连接 函数 ep)=py 或 恒 
等 函数 ， 并 设 定 概 率 分 布 为 正 态 (高 斯 ) 分 布 ， 那么 : 

glm(Y~X1+X2+X3, family=gaussian(link="identity"), data=mydata) 
生成 的 结果 与 下 列 代码 的 结果 相同 : 

lm(Y~X1l+X2+X3, data=mydata) 

总 之 , 广义 线性 模型 通过 拟 合 响应 变量 的 条 件 均 值 的 一 个 函数 (不 是 响应 变量 的 条 件 均 值 )， 
假设 响应 变量 服从 指数 分 布 族 中 的 某 个 分 布 ( 并 不 仅 限于 正 态 分 布 )， 极 大 地 扩展 了 标准 线性 模 
型 。 模 型 参数 估计 的 推导 依据 的 是 极 大 似 然 估计 ， 而 非 最 小 二 乘法 。 


13.1.2 ”连用 的 函数 


与 分 析 标 准 线性 模型 时 1m() 连用 的 许多 函数 在 glm() 中 都 有 对 应 的 形式 ,其 中 一 些 常 见 的 函 
数 见 表 13-2。 




















深 






































表 13-2 与 glm() 连 用 的 函数 
函 。 数 描述 
summary () 展示 拟 合 模型 的 细节 
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( 续 ) 
函 数 描 述 
coefficients()、 coef() 列 出 拟 合 模型 的 参数 ( 截 距 项 和 斜率 ) 
confint() 给 出 模型 参数 的 置信 区 间 (默认 为 95%) 
residuals() 列 出 拟 合 模型 的 残 差 值 
anova () 生成 两 个 拟 合 模型 的 方差 分 析 表 
plot () 生成 评价 拟 合 模型 的 诊断 图 
predict () 用 拟 合 模 型 对 新 数据 集 进 行 预测 
deviance() 拟 合 模型 的 偏差 
df.residual () 拟 合 模型 的 残 差 自由 度 
我 们 将 在 后 面 章节 讲解 这 些 函 数 的 示例 。 在 下 一 节 中 ， 我 们 将 简要 介绍 模型 适用 性 的 评价 。 





13.1.3 ”模型 拟 合 和 回归 诊断 


与 标准 ( OLS ) 线性 模型 一 样 ， 模 型 适用 性 的 评价 对 于 广义 线性 模型 也 非常 重要 。 但 遗憾 的 
是 ， 对 于 标准 的 评价 过 程 ， 统 计 轿子 仍 葛 囊 一 是 。 一 般 来 说 ， 你 可 以 使 用 第 8 章 中 描述 的 方法 ， 
但 要 牢记 以 下 建议 。 

当 评价 模型 的 适用 性 时 ， 你 可 以 绘制 初始 响应 变量 的 预测 值 与 残 差 的 图 形 。 例 如 ,如 下 代码 
可 绘制 一 个 常见 的 诊断 图 : 


plot (predict (model, type="response"), 
residuals (model, type= "deviance")) 


其 中 ，model 为 glm() 函数 返回 的 对 象 。 

R 将 列 出 帽子 值 (hat value )、 学 生化 残 差 值 和 Cook 距 离 统 计量 的 近似 值 。 不过， 对 于 识别 异 
常 点 的 阔 值 ， 现 在 并 没 统一 答案 ,它们 都 是 通过 相互 比较 来 进行 判断 。 其 中 一 个 方法 就 是 绘制 各 
统计 量 的 参考 图 ， 然 后 找 出 异常 大 的 值 。 例 如 ， 如 下 代码 可 创建 三 幅 诊断 图 : 

plot (hatvalues (model)) 


plot (rstudent (model)) 
plot (cooks.distance (model)) 


你 还 可 以 用 其 他 方法 ,代码 如 下 : 


library (car) 
influencePlot (model) 


它 可 以 创建 一 个 综合 性 的 诊断 图 。 在 后 面 的 图 形 中 , 横 轴 代表 杠杆 值 ， 纵 轴 代 表 学 生化 残 差 
值 ， 而 绘制 的 符号 大 小 与 Cook 距 离 大 小 成 正比 。 

当 响 应 变量 有 许多 值 时 ， 诊 断 图 非常 有 用 ; 而 当 响 应 变量 只 有 有 限 个 值 时 ( 比如 Logistic 回 
归 ), 诊断 图 的 功效 就 会 降低 很 多 。 

知 想 更 深入 了 解 广义 线性 模型 的 回归 诊断 ， 可 参考 Fox ( 2008 ) 和 Faraway ( 2006 )。 本 章 后 
面 几 节 将 详细 介绍 两 个 最 流行 的 广义 线性 模型 ，Logistic 回 归 和 泊 松 回归 。 
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13.2 ”Logistic 回归 


常 有 用 的 工具 。 以 A 


("AI 





当 通 过 一 系列 连续 型 和 /或 类 别 型 预测 变量 来 预测 二 值 





ER 包 中 的 数据 机 








ER") )。 


婚外情 数据 




















型 结 


生 导 




















果 变 量 时 ，Logistic 回 归 是 一 个 非 
攻 Af fairs 为 例 , 我 们 将 通过 探究 婚外情 的 数据 来 阐述 Logistic 
回归 的 过 程 。 首 次 使 用 该 数据 前 ， 请 确保 已 下 载 和 安装 了 此 软件 包 (使 用 install .packages 


1 著名 的 “Fair’s Affairs”， 取 自 于 1969 年 《今日 心理 》( Psychology Today ) 所 做 
的 一 个 非常 有 代表 性 的 调查 ， 而 Greene ( 2003 ) 和 Fair ( 1978 ) 都 对 它 进 行 过 分 析 。 该 数据 从 601 
个 参与 者 身上 收集 了 9 个 变量 ,包括 一 年 来 婚 外 私 通 的 频率 以 及 参与 者 性 别 、 年 龄 、 婚 龄 、 是 否 
有 人 小孩、 宗教 信仰 程度 (5 分 制 ，1 分 表示 反对 ，5 分 表示 非常 信仰 )、 学 历 、 职 业 ( 逆向 编号 的 戈 


登 7 种 分 类 )， 还 有 对 婚姻 的 自我 评分 (5 分 制 ，1 表 示 非 常 不 幸福 ，5 表 示 非 常 毕 福 )。 
我 们 先 看 一 些 描述 性 的 统计 信息 : 


32 岁 


> data (Affairs, 
> summary (Affairs) 


affairs 

Min. 0.000 
18t-0QUa 05000 
Median 0.000 
Mean 1.456 
当下 人 Ole 00Q00 
Max. :12.000 
Religiousness 

Min. :10.00 
lst Qu. 2000 
Median :3.000 
Mean 135116 
3rd Qu 3: 000 
Max. 05000 


package="AER" 


) 


gengder age 

female:315 Min. :17;50 

male :286 lst Qu.:27.00 

Median :32.00 

Mean 723249 

3T9 QUST00 

Max. “D5700 
education occupation 
Min. : 9.00 Min. :1.000 
lst Qu.:14.00 lst Qu.:3.000 
Median :16.00 Median :5.000 
Mean L6517 Mean 9 
3T0 Ou L800 3rd. QW :6:000 
Max. :20500 Max. :7.5000 


> table(Affairssaffairs) 


0 业 2 
451 34 17 


从 这 些 统 计 信息 可 以 看 到 ，52% 的 调查 对 象 是 女性 ，72% 的 人 有 孩子 ， 样 本 年 龄 的 中 位 数 为 
72% 的 调查 对 象 表示 过 去 一 年 中 没有 婚外情 (451/601 )， 而 婚 外 偷 腥 的 最 


3 
:9 


。 对 于 响应 变量 ， 
多 次 数 为 12( 占 了 6% )。 





“二 2 
42 38 











yearsmarried 
Min. :Qu125 
TSt "Qu: 4:000 
Median : 7.000 
Mean :87178 
3rd Qu.:15.000 
Max. :15.000 
rating 
Min. 15000 
lst Qu.:3.000 
Median :4.000 
Mean 33932 
3r a. O5000 
Max. S000 























children 
hake oe 
yes:430 


虽然 这 些 婚姻 的 轻率 举动 次 数 被 记录 下 来 , 但 此 处 我 们 感 兴趣 的 是 二 值 型 结果 ( 有 过 一 次 婚 


外 情 / 没 有 过 婚外情 )。 按 照 如 下 代码 ， 你 可 将 affairs 转 化 为 二 值 型 因子 ynaffair。 


> AffairsSynaffalitr[AftfalirsSaffalirs > 0] <- 1 
> Affairs$synaffair[Affairs$affairs == 0] <- 
> Affairs$synaffair <- factor(Affairssynaffair, 


> table(Affairs$synaffair) 


NG ‘Yes 


levels=c(0,1), 


labels=c ("No","Yes")) 


0 
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451 150 
该 二 值 型 因子 现 可 作为 Logistic 回 归 的 结果 变量 


> fit.full <- glm(ynaffair ~ gender + age + yearsmarried + children + 
religiousness + education + occupation +rating, 
data=Affairs, family=binomial ()) 

> summary (fit.full) 





Cl 

glm(formula = ynaffair ~ gender + age + yearsmarried + children + 
religiousness + education + occupation + rating, family = binomial (), 
data = Affairs) 


Deviance Residuals: 
Min 10 Median 30 Max 
1 ST e050 0 969 .50254 ,2759 


Coefficients: 

Estimate Std. Error z value Pr(>|z|) 
(Intercept) ee 0.8878 L553. OQ: E208:L 
gendermale 0.2803 O02.3:9L 0208 
age -0.0443 0.0182 2 93 OF 二 
yearsmarried 0.0948 OM vO 2 
childrenyes (Ol eh Qim29T5 L3G ‘Onl725L 
religiousness -0.3247 0.0898 = 6 0 OOVIO SR 
education 0.0211 0.0505 0.42 0.67685 
occupation 0.0309 0.0718 0.43 0.66663 
rating -0.4685 0.0909 bud 2 60 
SLONLE. GCOSE:. OF TE OO TART OL THIr O OB dO 


(Dispersion parameter for binomial family taken to be 1) 


Null deviance: 675.38 on 600 degrees of freedom 
Residual deviance: 609.51 on 592 degrees of freedom 
AITGC> tk27 3s5 


Number of Fisher Scoring iterations: 4 


从 回归 系数 的 p 值 ( 最 后 一 栏 ) 可 以 看 到 ， 人 性别 、 是 否 有 孩子 、 学 历 和 职业 对 方程 的 贡献 都 
不 显著 〈 你 无 法 拒绝 参数 为 0 的 假设 )。 去 除 这 些 变量 重新 拟 合 模型 ， 检 验 新 模型 是 否 拟 合 得 好 : 


> fit.reduced <- glm(ynaffair ~ age + yearsmarried + religiousness + 
rating, data=Affairs, family=binomial ()) 
> summary (fit.reduced) 
Call: 
glm(formula = ynaffair ~ age + yearsmarried + religiousness + rating, 
family = binomial(), data = Affairs) 








Deviance Residuals: 
Min 1Q Median 30 Max 
-G28 OFT. O70 0%262 .27400 
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Coefficients: 
Estimate Std. Error z value Pr(>|z|) 
(Intercept) 1.9308 0.6103 S316. “O00l56 ** 
age 0 0353 O0174.. =2.03 ‘0.04213 六 
yearsmarried 0.1006 0.0292 3.544. O00057 ”大兴 大 
religiousness -0.3290 0.0895 -3.68 0.00023 *** 
rating -0.4614 050888- 一 5, 下 95 .2 和 全 = 0 IT 天 大 天 
To fs: "Codes::> OV HAE O00D EEL POOLOL MR OF 0S OL 站 


(Dispersion parameter for binomial family taken to be 1) 


Null deviance: 675.38 on 600 degrees of freedom 
Residual deviance: 615.36 on 596 degrees of freedom 
AIC: 625.4 


Number of Fisher Scoring iterations: 4 


新 模型 的 每 个 回归 系数 都 非常 显著 (p<0.05 )。 由 于 两 模型 骨 套 ( fit .reduced 是 fit .full 
的 一 个 子 集 )， 你 可 以 使 用 anova () 函数 对 它们 进行 比较 ， 对 于 广义 线性 回归 ， 可 用 卡 方 检验 。 


> anova(fit.reduced, fit.full, test="Chisq") 
Analysis of Deviance Table 








Model 1: ynaffair ~ age + yearsmarried + religiousness + rating 
Model 2: ynaffair ~ gender + age + yearsmarried + children + 
religiousness + education + occupation + rating 
Resid. Df Resid. Dev Df Deviance P(>|Chil|) 
业 596 615 
2 S92 610 4 S5485 0 21 


结果 的 卡 方 值 不 显著 (p=0.21 )， 表 明 四 个 预测 变量 的 新 模型 与 九 个 完整 预测 变量 的 模型 拟 
合 程度 一 样 好 。 这 使 得 你 更 加 坚信 添加 性 别 、 孩 子 、 学 历 和 职业 变量 不 会 显著 提高 方程 的 预测 精 
度 ， 因 此 可 以 依据 更 简单 的 模型 进行 解释 。 


13.2.1 解释 模型 参数 



































先 看 看 回归 系数 : 
> coef (fit.reduced) 
(Intercept) age yearsmarried religiousness rating 
L931 =a0.035 0.101 =0329 -0.461 





在 Logistic 回 归 中 ， 响 应 变量 是 六 1 的 对 数 优势 比 (log )。 回 归 系 数 的 含义 是 当 其 他 预测 变量 
不 变 时 ， 一 单位 预测 变量 的 变化 可 引起 的 响应 变量 对 数 优势 比 的 变化 。 
由 于 对 数 优势 比 解释 性 差 ， 你 可 对 结果 进行 指数 化 : 


> exp(coef (fit.reduced)) 
(Intercept) age yearsmarried religiousness rating 
6.895 0.965 1.106 0 ,3720 0.630 
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可 以 看 到 婚龄 增加 一 年 ， 婚 外 情 的 优势 比 将 乘 以 1.106 ( 保持 年 龄 、 宗 教 信仰 和 婚姻 评定 不 
变 ); 相反 ， 年 龄 增加 一 岁 ， 婚 外 情 的 的 优势 比 则 乘 以 0.965。 因 此 ， 随 着 婚龄 的 增加 和 年 龄 、 宗 
教 信仰 与 婚姻 评分 的 降低 ， 婚 外 情 优 势 比 将 上 升 。 因 为 预测 变量 不 能 等 于 0， 截 距 项 在 此 处 没有 
什么 特定 含义 。 

如 果 有 需要 ， 你 还 可 使 用 confint () 函数 获取 系数 的 置信 区 间 。 例 如 ，exp (confint 
(fit.zequced) ) 可 在 优势 比 尺度 上 得 到 系数 95% 的 置信 区 间 。 

最 后 ， 预 测 变 量 一 单位 的 变化 可 能 并 不 是 我 们 最 想 关 注 的 。 对 于 二 值 型 Logistic 回 归 ， 某 预 
测 变 量 n 单 位 的 变化 引起 的 较 高 值 上 优势 比 的 变化 为 exp(8)^*.n， 它 反映 的 信息 可 能 更 为 重要 。 比 
如 ， 保 持 其 他 预测 变量 不 变 ， 婚 龄 增加 一 年 ， 婚 外 情 的 优势 比 将 乘 以 1.106， 而 如 果 婚 龄 增加 10 
年 ， 优 势 比 将 乘 以 1.106^10， 即 2.7。 


13.2.2 ”评价 预测 变量 对 结果 概率 的 影响 


对 于 我 们 大 多 数 人 来 说 ,以 概率 的 方式 思考 比 使 用 优势 比 更 直观 。 使 用 predict () 函数 , 可 
以 观察 某 个 预测 变量 在 各 个 水 平时 对 结果 概率 的 影响 。 首先 创建 一 个 包含 你 感 兴趣 预测 变量 值 的 
虚拟 数据 集 ， 然 后 对 该 数据 集 使 用 predict () 函数 ， 以 预测 这 些 值 的 结果 概率 。 

现在 我 们 使 用 该 方法 评价 婚姻 评分 对 婚外情 概率 的 影响 。 首先, 创建 一 个 虚拟 数据 集 , 设 定 
年 龄 、 婚 龄 和 宗教 信仰 为 它们 的 均值 ， 婚 姻 评 分 的 范围 为 1 ~ 5。 


> testdata <- data.frame (rating=c(1, 2, 3, 4, 5), age=mean (Affairs$age), 
yearsmarried=mean (Affairs$yearsmarried), 
religiousness=mean (Affairs$religiousness)) 






































> testdata 

rating age yearsmarried religiousness 
J .32.5 8.18 3.12 
2 2 32..:5 8.18 3.12 
3 3: 325 8.18 3512 
4 3 8.18 3:312 
5 5 32.9 8.18 3 于 这 





接 下 来 ,使 用 测试 数据 集 预测 相应 的 概率 : 


> testdatas$sprob <- predict (fit.reduced, newdata=testdata, type="response") 


testdata 

rating age yearsmarried religiousness prob 
和 L325 8.18 3:12. 0530 
2 2 309 8.18 B52 QE6 
3 3032.5 8.18 3 E270 7310 
4 水 3329 8.18 BL2: Qs 220 
5 D395. 8.18 3%12 QL51 


从 这 些 结 果 可 以 看 到 ， 当 婚姻 评分 从 1 ( 很 不 幸福 ) 变 为 5 ( 非常 幸福 ) 时 , 婚外情 概率 从 0.53 
降低 到 了 0.15( 假定 年 龄 、 婚 龄 和 宗教 信仰 不 变 )。 下 面 我 们 再 看 看 年 龄 的 影响 : 
> testdata <- data.frame (rating=mean (Affairs$rating), 


age=seq(17, 57, 10), 
yearsmarried=mean (Affairs$yearsmarried), 
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religiousness=mean (Affairss$religiousness)) 


> testdata 

rating age yearsmarried religiousness 
1 B93 “17 8.18 3.522 
2 393 1 2 85.18 3% 汪 2 
3 3;:593; -37 8.18 23% 
4 3593 “本 7 8.18 Sb 
5 3593-” 57 8.18 3.512 


> testdata$sprob <- predict (fit.reduced, newdata=testdata, type="response") 


> testdata 
rating age yearsmarried religiousness prob 
1 3%93 “17 8.18 3 12 0.335 
2 3,093 2:7 8.18 3.7 2 0.262 
3 3793 237 8.18 3%12 0.199 
4 3%93, 47 8.18 3%12 0.149 
3..93: “5 了 8.18 3 分 0%109 


此 处 可 以 看 到 ， 当 其 他 变量 不 变 ， 年 龄 从 17 增 加 到 57 时 ,婚外情 的 概率 将 从 0.34 降 低 到 0.11。 
利用 该 方法 ， 你 可 探究 每 一 个 预测 变量 对 结果 概率 的 影响 。 





13.2.3 ”过 度 离 势 


抽样 于 二 项 分 布 的 数据 的 期 望 方 差 是 go”=nx(1-n)，n 为 观测 数 ，x 为 属于 二 1 组 的 概率 。 所 谓 
过 度 离 势 , 即 观测 到 的 响应 变量 的 方差 大 于 期 望 的 二 项 分 布 的 方差 。 过 度 离 势 会 导致 奇异 的 标准 
误 检 验 和 不 精确 的 显著 性 检验 。 

当 出 现 过 度 离 势 时 , 仍 可 使 用 glm() 函数 拟 合 Logistic 回 归 , 但 此 时 需要 将 二 项 分 布 改 为 类 二 
项 分 布 (quasibinomial distribution )。 

检测 过 度 离 势 的 一 种 方法 是 比较 二 项 分 布 模型 的 残 差 偏差 与 残 差 自由 度 ， 如 果 比 值 : 

残 差 偏差 
” 残 差 自 由 度 
比 1 大 很 多 ， 你 便 可 认为 存在 过 度 离 势 。 回 到 婚外情 的 例子 ， 可 得 : 


> deviance (fit.reduced)/df.residual (fit.reduced) 
[TI 1.032 


它 非常 接近 于 1， 表 明 没 有 过 度 离 势 。 

你 还 可 以 对 过 度 离 势 进行 检验 。 为 此 ， 你 需要 拟 合 模型 两 次 ， 第 一 次 使 用 family= 
binomial", 第 二 次 使 用 family=" quasibinomial"。 假 设 第 一 次 glm() 返 回 对 象 记 为 fit， 
第 二 次 返回 对 象 记 为 fit .od， 那 么 : 


pchisgq(summary (fit.o0d) Sdispersion * fitsdf.residual, 
fitsdf.residual, lower = F) 


提供 的 p 值 即 可 对 零 假 设 Ho: %=1 与 备 择 假设 Hi: bz#1 进 行 检验 。 若 pz 很 小 (小 于 0.05 ), 你 便 可 拒 
绝 零 假 设 。 
将 其 应 用 到 婚外情 数据 

































































可 得 : 


? Ly 
> 
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> fit <- glm(ynaffair ~ age + yearsmarried + religiousness + 
rating, family = binomial(), data = Affairs) 
> fit.od <- glm(ynaffair ~ age + yearsmarried + religiousness + 
rating, family = quasibinomial(), data = Affairs) 


> pchisq(summary (fit.o0d) $dispersion * fits$df.residual, 
fitsdf.residual, lower = F) 








[1] 0.34 
此 处 p 值 (0.34 ) 显然 不 显著 (p>0.05 )， 这 更 增强 了 我 们 认为 不 存在 过 度 离 势 的 信心 。 下 节 
介绍 泊 松 回归 时 ， 我 们 仍 将 对 过 度 离 势 问题 进行 讨论 。 


13.2.4 扩展 


R 中 扩展 的 Logistic 回 归 和 变种 如 下 所 示 。 

口 稳健 Logistic 回 归 ”robust 包 中 的 glmRob() 函数 可 用 来 拟 合 稳健 的 广义 线性 模型 ， 包 括 
稳健 Logistic 回 归 。 当 拟 合 Logistic 回 归 模 型 数据 出 现 离 群 点 和 强 影 响 点 时 ， 稳 健 Logistic 
回归 便 可 派 上 用 场 。 

口 多 项 分 布 回归 ” 若 响 应 变量 包含 两 个 以 上 的 无 序 类 别 〈 比 如 ， 已 婚 /寡居 /离婚 )， 便 可 使 

用 mlogit 包 中 的 mlogit () 函数 拟 合 多 项 Logistic 回 归 。 

口 序数 Logistic 回 归 “大 响应 变量 是 一 组 有 序 的 类 别 〈 比如， 信用 风险 为 差 / 良 /好 )， 便 可 使 
用 rms 包 中 的 1rm() 函数 拟 合 序数 Logistic 回 归 。 

可 对 多 类 别 的 响应 变量 (无论 是 否 有 序 ) 进行 建 模 是 非常 重要 的 扩展 , 但 它 也 面临 着 解释 性 

更 复杂 的 困难 。 同 时 ， 在 这 种 情况 下 评价 模型 拟 合 优 度 和 回归 诊断 也 变 得 更 为 复杂 。 

在 婚外情 的 例子 中 ， 婚 外 偷 腥 的 次 数 被 二 值 化 为 一 个 “是 / 否 ”的 响应 变量 ， 这 是 因为 我 们 

最 感 兴趣 的 是 在 过 去 一 年 中 调查 对 象 是 否 有 过 一 次 婚外情 。 如 果 兴 趣 转移 到 量 上 ( 过 去 一 年 中 婚 

外 情 的 次 数 )， 便 可 直接 对 计数 型 数据 进行 分 析 。 分 析 计 数 型 数据 的 一 种 流行 方法 是 泊 松 回归 ， 

这 便 是 我 们 接 下 来 的 话题 。 


13.3” 泊 松 回归 


当 通 过 一 系列 连续 型 和 /或 类 别 型 预测 变量 来 预测 计数 型 结果 变量 时 ， 泊 松 回 归 是 一 个 非常 
有 用 的 工具 。 一 个 全 面 而 易 懂 的 泊 松 回归 简介 参见 Coxe、West 和 Aiken 的 “The Analysis of Count 
Data: A Gentle Introduction to Poisson Regression and Its Alternatives”( 2009 )。 

为 阐述 泊 松 回归 模型 的 拟 合 过 程 ， 并 探讨 一 些 可 能 出 现 的 问题 ， 我 们 将 使 用 robust 包 中 的 
Breslow 闻 病 数据 ( Breslow，1993 )。 特别 地 ,我 们 将 讨论 在 治疗 初期 的 八 周 内 ， 抗 瘦 病 药物 对 疗 
痛 发 病 数 的 影响 。 继 续 下 文 前 ， 请 确定 已 安装 ropust 包 。 

我 们 就 遭受 轻微 或 严重 间歇 性 疾病 的 病人 的 年 龄 和 疗 首 发 病 数 收集 了 数据 , 包含 病人 被 随机 
分 配 到 药物 组 或 者 安 感 剂 组 前 八 周 和 随 机 分 配 后 八 周 两 种 情况 。 响 应 变量 为 sumy ( 随机 化 后 八 
周 内 瘦 痢 发 病 数 )， 预 测 变量 为 治疗 条 件 〈Trt )、 年 龄 (age ) 和 前 八 周 内 的 基础 癫 病 发 病 数 
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( Base )。 之 所 以 包含 基础 普 病 发 病 数 和 年 龄 ， 是 因为 它们 对 响应 变量 有 潜在 影响 。 在 解释 这 些 
协 变量 后 ， 我 们 感 兴趣 的 是 药物 治疗 是 否 能 减少 癫痫 发 病 数 。 

首先 ， 看 看 数据 集 的 统计 汇总 信息 : 

> data(breslow.dat, package="robust") 

> names (breslow.dat) 


[1] "ID" "yl1" ny2" ny3" "yA" "Basen "Age" "Trt" "ysum" 
[10] "sumY" "Age10" "Base4" 











> summary (breslow.dat [c(6,7,8,10)]) 


Base Age Tz SumY 
Min. : 6.0 Min. :18.0 placebo :28 Min. ; 0.a0 
at -25 Let Tu, 23.0 progabide:31 小 乱世 a Ed ed 
Median : 22.0 Median :28.0 Median : 16.0 
Mean 了 Mean 28 .3 Mean i 
3rd Qu: W410 3rd OU 32.:0 3rd ou 3 36.w0 
Max. es er) Max. 2.0 Max. .30 0 























注意 , 虽然 数据 集 有 12 个 变量 , 但 是 我 们 只 关注 之 前 描述 的 四 个 变量 。 基础 和 随机 化 后 的 疗 
病 发 病 数 都 有 很 高 的 偏 度 。 现 在 ,我 们 更 详细 地 考察 响应 变量 。 如 下 代码 可 生成 的 图 形 如 图 13-1 
所 示 。 








Distribution of Seizures Group Comparisons 
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Seizure Count Treatment 


图 13-1 ”随机 化 后 的 奖 闯 发 病 数 的 分 布 情况 ( 来源，Breslow 糯 闯 数 据 ) 
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从 图 13-1 中 可 以 清楚 地 看 到 因 变 量 的 偏 倚 特 性 以 及 可 能 的 离 群 点 。 初 看 图 形 时 ,药物 治疗 下 po 
癫 病 发 病 数 似乎 变 小 了 ， 且 方差 也 变 小 了 ( 泊 松 分 布 中 ， 较 小 的 方差 伴随 着 较 小 的 均值 )。 与 标 
准 最 小 二 乘 回归 不 同 ， 泊 松 回 归并 不 关注 方差 异 质 性 。 


opar <- par (no.readqonly=TRUE ) 
par (mfrow=c(1,2)) 
attach (breslow.dat) 
hist(sumY, breaks=20, xlab="Seizure Count", 
main="Distribution of Seizures") 
boxplot (sumY ~ Trt, xlab="Treatment", main="Group Comparisons") 
par (opar) 


接 下 来 拟 合 泊 松 回 归 : 


> fit <- glm(sumY ~ Base + Age + Trt, data=breslow.dat, family=poisson()) 

> summary (fit) 

Clls 

glm(formula = sumY ~ Base + Age + Trt, family = poisson(), data = 
breslow.dat) 








Deviance Residuals: 
Min 1Q0 Median 30 Max 
06.05 “2.043.70 =0940. (0793. LL:006 


Coefficients: 

Estimate Std. Error z Value Pr(>|z|) 
(Intercept) 1.948826 0.135619 14.37 < 2e-16 *** 
Base 0.022652 0.000509 44.48 < 2e-16 *** 
Age 0.022740 0.004024 S65 “68=:08. 
Trtprogabide -0.152701 0.047805 -3.19 QO00T4. ** 


SLOnifE: rGOdeS "0. HRW "OOO, TERLOROL VRS "ONO a sO LL 
(Dispersion parameter for poisson family taken to be 1) 

Null deviance: 2122.73 on 58 degrees of freedom 
Residual deviance: 559.44 on 55 degrees of freedom 


AIC: 850.7 


Number of Fisher Scoring iterations: 5 


输出 结果 列 出 了 偏差 、 回 归 参 数 、 标 准 误 和 参数 为 0 的 检验 。 注 意 ， 此 处 预测 变量 在 p<0.05 
的 水 平 下 都 非常 显著 。 


13.3.1 解释 模型 参数 
使 用 coef() 函数 可 获取 模型 系数 ， 或 者 调用 summary() 函数 的 输出 结果 中 的 


coefficients 表 格 : 











> COef (fity) 
(Intercept) Base Age Trtprogabide 
1.9488 0.0227 QO D2 -0..152:7 
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在 泊 松 回归 中 ， 因 变量 以 条 件 均值 的 对 数 形式 loge(4) 来 建 模 。 年 龄 的 回归 参数 为 0.0227， 表 
明 保 持 其 他 预测 变量 不 变 ， 年 龄 增加 一 岁 ， 瘦 病 发 病 数 的 对 数 均值 将 相应 增加 0.03 。 截 距 项 即 当 
预测 变量 都 为 0 时 ， 癫 病 发 病 数 的 对 数 均值 。 由 于 不 可 能 为 0 岁 , 且 调 查 对 象 的 基础 疗 痢 发 病 数 均 
不 为 0， 因 此 本 例 中 截 距 项 没有 意义 。 

通常 在 因 变 量 的 初始 太 度 〈 癫 病 发 病 数 ， 而 非 发 病 数 的 对 数 ) 上 解释 回归 系数 比较 容易 。 为 
此 ， 指 数 化 系数 : 

> exp (coef (fit)) 


(Intercept) Base Age Trtprogabide 
了 2020 L023 L023 0.858 


现在 可 以 看 到 ， 保 持 其 他 变量 不 变 ， 年 龄 增加 一 岁 ， 期 望 的 癫 痢 发 病 数 将 乘 以 1.023。 这 意 
味 着 年 龄 的 增加 与 较 高 的 辣 病 发 病 数 相关 联 。 更 为 重要 的 是 ,一 单位 Trt 的 变化 ( 即 从 安慰 剂 到 
治疗 组 )， 期 望 的 疗 首 发 病 数 将 乘 以 0.86， 也 就 是 说 ， 保 持 基 础 癫 冯 发 病 数 和 年 龄 不 变 ， 服 药 组 
相对 于 安慰 剂 组 癫 痛 发 病 数 降低 了 20%。 

另外 需要 牢记 的 是 ， 与 Logistic 回 归 中 的 指数 化 参数 相似 ， 泊 松 模型 中 的 指数 化 参数 对 响应 
变量 的 影响 都 是 成 倍增 加 的 ， 而 不 是 线性 相 加 。 同 样 ， 你 还 需要 评价 泊 松 模型 的 过 度 离 势 。 






























































13.3.2 “过度 离 势 


泊 松 分 布 的 方差 和 均值 相等 。 当 响应 变量 观测 的 方差 比 依据 泊 松 分 布 预测 的 方差 大 时 , 泊 松 
回归 可 能 发 生 过 度 离 势 。 处 理 计数 型 数据 时 经 党 发 生 过 度 离 势 , 日 过 度 离 势 会 对 结果 的 可 解释 性 
造成 负面 影响 ， 因 此 我 们 需要 花 些 时 间 讨 论 该 问题 。 

可 能 发 生 过 度 离 势 的 原因 有 如 下 几 个 ( Coxe et al.，2009 )。 

口 遗漏 了 某 个 重要 的 预测 变量 。 

口 可 能 因为 事件 相关 。 在 泊 松 分 布 的 观测 中 ， 计 数 中 每 次 事件 都 被 认为 是 独立 发 生 的 。 以 
癫 痢 数 据 为 例 ， 这 意味 着 对 于 任何 病人 ， 每 次 疗 痢 发 病 的 概率 与 其 他 疗 病 发 病 的 概率 相 
互 独立 。 但 是 这 个 假设 通常 都 无 法 满足 。 对 于 某 个 病人 ， 在 已 知 他 已 经 发 生 了 39 次 妆 病 
时 ， 第 一 次 发 生 妆 冯 的 概率 不 可 能 与 第 40 次 发 生 癖 痛 的 概率 相同 。 

口 在 纵向 数据 分 析 中 ,重复 测量 的 数据 由 于 内 在 群 聚 特 性 可 导致 过 度 离 势 。 此 处 并 不 讨论 

纵向 泊 松 模型 。 

如 果 存 在 过 度 离 势 ， 在 模型 中 你 无 法 进行 解释 ， 那 么 可 能 会 得 到 很 小 的 标准 误 和 置信 区 间 ， 
并 且 显著 性 检验 也 过 于 宽松 (也 就 是 说 ， 你 将 会 发 现 并 不 真实 存在 的 效应 )。 

与 Logistic 回 归 类 似 ， 此 处 如 果 残 差 偏 差 与 残 差 月 由 度 的 比例 远 远大 于 1， 那么 表明 存在 过 度 
离 势 。 对 于 疗 病 数据 ， 它 的 比例 为 : 


> deviance (fit)/df.residual (fit) 
[本 L017 


很 显然 ， 比 例 远 远大 于 1。 
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qcc 包 提供 了 一 个 对 泊 松 模型 过 度 离 势 的 检验 方法 。( 在 首次 使 用 前 ,请 确保 已 经 下 载 和 安装 
此 包 。) 如 下 代码 可 进行 辣 痫 数据 过 度 离 势 的 检验 : 

> library (gqcc) 

> dqcc.overdispersion.test (breslow.dat$sumY, type="poisson") 


Overdispersion test Obs.Var/Theor.Var Statistic p-value 
poisson data 62.9 3646 0 


意料 之 中 ， 显 著 性 检验 的 p 值 果然 小 于 0.05， 进 一 步 表 明确 实 存 在 过 度 离 势 。 

通过 用 family="quasipoisson" 和 替换 family="poisson"， 你 仍然 可 以 使 用 glm() 函数 
对 该 数据 进行 拟 合 。 这 与 Logistic 回 归 处 理 过 度 离 势 的 方法 是 相同 的 。 

> fit.od <- glm(sumY ~ Base + Age + Trt, data=breslow.dat, 


family=quasipoisson()) 
> summary (fit.od) 














Coll 
glm(formula = sumY ~ Base + Age + Trt, family = quasipoisson(), 
data = breslow.dat) 


Deviance Residuals: 
Min 1Q Median 30Q Max 
62:057 “ <2:043:, 0940 0.793 11.006 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) 1.94883 0.46509 本 ,90080TQ - 
Base 0.02265 0.00175 12.97 < 2e-16 *** 
Age 0.02274 0.01380 L165 ‘010509 
Trtprogabide -0.15270 0.16394 -0.93. 0535570 


SN GOES O00 OO 
(Dispersion parameter for quasipoisson family taken to be 11.8) 


Null deviance: 2122.73 on 58 degrees of freedom 
Residual deviance: 559.44 on 55 degrees of freedom 
AIC: NA 


Number of Fisher Scoring iterations: 5 

注意 , 使 用 类 泊 松 ( quasi-Poisson ) 方法 所 得 的 参数 估计 与 泊 松 方法 相同 , 但 标准 误 变 大 了 许 
多 。 此 处 ， 标 准 误 越 大 将 会 导致 rrt ( 和 age ) 的 p 值 越 大 于 0.05。 当 考虑 过 度 离 势 ， 并 控制 基础 
冲 冯 数 和 年 龄 时 ， 并 没有 充足 的 证 据 表 明 药 物 治疗 相对 于 使 用 安奈 剂 能 显著 降低 癖 病 发 病 次 数 。 

不 过 请 记 住 , 本 例 只 是 用 于 阐释 泊 松 模型 , 它 的 结果 并 不 能 用 来 反映 真实 世界 中 的 普罗 加 比 
(治疗 癫 病 ) 药 效 问题 。 我 不 是 医生 《至少 不 是 一 个 药剂 师 ), 也 未 在 电视 中 扮演 过 这 类 角色 ， 数 
据 只 是 用 来 曾 释 模型 的 。 

最 后 ， 我 们 以 探究 泊 松 回归 的 一 些 重 要 变种 和 扩展 结束 本 他。 
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13.3.3 扩展 


R 提 供 了 基本 泊 松 回归 模型 的 一 些 有 用 扩展 , 包括 允许 时 间 段 变化 、 存 在 过 多 0 时 会 自动 修正 
的 模型 ， 以 及 当 数 据 存 在 离 群 点 和 强 影响 点 时 有 用 的 稳健 模型 。 下 面 分 别 对 它们 进行 介绍 。 

1. 时 间 段 变化 的 泊 松 回归 

对 于 泊 松 回归 的 讨论 ， 我 们 一 直 将 响应 变量 局 限 在 一 个 固定 长 度 时 间 段 中 进行 测量 ( 例如 ， 
八 周 内 的 奖 病 发 病 数 、 过 去 一 年 内 交通 事故 数 、 一 天 中 亲近 社会 的 举动 次 数 )， 整 个 观测 集中 时 
间 长 度 都 是 不 变 的 。 不过, 你 也 可 以 拟 合 允 许 时 间 段 变化 的 泊 松 回归 模型 。 此 处 假设 结果 变量 是 
一 个 比率 。 

为 分 析 比 率 ， 必 须 包 含 一 个 记录 每 个 观测 的 时 间 长 度 的 变量 ( 如 time )。 然 后 ， 将 模型 从 : 


log.(4)=P, + 2 BX, 





























修改 为 : 
1 p 
log。 去 | = p+ pe BX, 
或 等 价 的 : 
log.(4)= log, (time)+ pb, 人 bX, 


为 拟 合 新 模型 ， 你 需要 使 用 glm() 函数 中 的 of fset 选 项 。 例 如 在 Breslow 糯 病 研 究 中 ,假设 
病人 随机 分 组 后 检测 的 时 间 长 度 在 14 天 到 60 天 间 变 化 。 你 可 以 将 癫 痢 发 病 率 作 为 因 变 量 ( 假设 已 
记录 了 每 个 病人 发 病 的 时 间 )， 然 后 拟 合 模型 : 


fit <- glm(sumY ~ Base + Age + Trt, data=breslow.dat, 
offset= log(time), family=poisson) 


其 中 sumY 指 随机 化 分 组 后 在 每 个 病人 被 研究 期 间 其 疗 病 发 病 的 次 数 。 此 处 假定 比率 不 随时 间 变 
化 〈 比 如 ，4 天 中 发 生 2 次 疗 冯 与 20 天 发 生 10 次 癫痫 比率 相同 )。 

2. 零 膨 胀 的 泊 松 回归 

在 一 个 数据 集中 ，0 计 数 的 数目 时 常 比 用 泊 松 模型 预测 的 数目 多 。 当 总 体 的 一 个 子 群体 无 任 
何 被 计数 的 行为 时 ， 就 可 能 发 生 这 种 问题 。 以 Logistic 回 归 中 的 婚外情 数据 为 例 ， 初 始 结果 变量 
(affairs) 记录 了 调查 对 象 在 过 去 一 年 中 的 婚 外 偷 腥 次 数 。 在 整个 调查 期 间 ， 很 有 可 能 有 一 群 
对 配偶 忠诚 的 群体 从 未 有 过 婚外情 。 这 便 称 为 结构 零 值 ( 相对 于 调查 中 那 群 有 婚外情 的 人 )。 

此 时 ,你 可 以 使 用 零 膨 胀 的 泊 松 回归 ( zero-inflated Poisson regression ) 分 析 该 数据 。 它 将 同 
时 拟 合 两 个 模型 : 一 个 用 来 预测 哪些 人 又 会 发 生 婚外情 , 另外 一 个 用 来 预测 排除 了 婚姻 忠诚 者 后 
的 调查 对 象 会 发 生 多 少 次 婚外情 。 你 可 以 把 该 模型 看 作 Logistic 回 归 【 预测 结构 零 值 ) 和 泊 松 回 
归 ( 预测 无 结构 零 值 观测 的 计数 ) 的 组 合 。psc1 包 中 的 zeroinfl () 函数 可 做 零 膨 胀 泊 松 回归 。 

3. 稳健 泊 松 回归 

robust 包 中 的 glmRob () 函数 可 以 拟 合 稳健 广义 线性 模型 ， 包 含 稳健 泊 松 回归 。 正 如 上 文 所 
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提 到 的 ， 当 存在 离 群 点 和 强 影响 点 时 ， 该 方法 会 很 有 效 。 


深入 探究 
广义 线性 模型 是 一 种 数学 上 的 复杂 模型 ， 有 许多 可 用 的 学 习 资源 。Dunteman 和 Ho 的 47 
Jntroduction to Generalized Linear Models (2006 ) 是 一 个 较 好 的 简介 ， 可 供 参 考 ; McCullagh 和 
Nelder 的 Generalized Linear Models, Second Edition( 1989 ) 则 是 经 典 的 广义 线性 模型 的 (高 级 ) 
材料 。Dobson 和 Barnett 的 An Introduction to Generalized Linear Models, Third Edition( 2008 ) 和 
Fox 的 Applied Regression Analysis and Generalized Linear Models ( 2008 ) 给 出 了 全 面 而 易 懂 的 讲 
义 ， 另 外 还 有 以 及 为 背景 的 优秀 简介 可 参考 : Faraway ( 2006 ) 和 Fox ( 2002 )。 


13.4 ”小 结 


为 帮助 你 更 好 地 理解 数据 , 本 章 使 用 广义 线性 模型 扩展 了 经 典 方法 的 方法 适用 范围 。 具 体 来 
讲 , 该 框架 可 以 用 来 分 析 非 正 态 的 响应 变量 , 包括 分 类 数据 和 离散 的 计数 型 数据 。 在 简短 介绍 了 
这 些 通用 方法 后 ,我 们 重点 探究 了 Logistic 回 归 (分 析 二 值 型 结果 变量 ) 和 泊 松 回归 〈 分 析 计 数 
型 或 比率 结果 变量 )。 

随后 , 我们 讨论 了 过 度 离 势 问题 ,包括 如 何 检测 以 及 依据 它 进行 调整 等 方法 。 最 后 ,学习 了 
它们 在 R 中 的 一 些 可 用 扩展 和 变种 。 

到 目前 为 止 ,我们 介绍 的 每 种 统计 方法 都 是 直接 处 理 可 观测 、 可 记录 的 变量 。 在 下 一 章 中 ， 
我 们 将 看 看 处 理 潜 变 量 的 统计 模型 , 即 那些 你 坚信 存在 并 能 解释 可 观测 变量 的 、 无 法 被 观测 到 的 、 
理论 上 的 变量 。 具体 而 言 , 你 将 学 习 如 何 使 用 因子 分 析 方 法 检测 和 检验 这 些 无 法 被 观测 到 的 变量 
的 假设 。 



























































主 成 分 分 析 和 因子 分 析 








本 章 内 容 

口 主 成 分 分 析 

口 探索 性 因子 分 析 

口 理解 其 他 潜 变 量 模 型 























信息 过 度 复杂 是 多 变量 数据 最 大 的 挑战 之 一 。 若 数据 集 有 100 个 变量 ， 如 何 了 解 其 中 所 有 的 
交互 关系 呢 ? 即使 只 有 20 个 变量 ， 当 试图 理解 各 个 变量 与 其 他 变量 的 关系 时 ， 也 需要 考虑 190 对 
相互 关系 。 主 成 分 分 析 和 探索 性 因子 分 析 是 两 种 用 来 探索 和 简化 多 变量 复杂 关系 的 常用 方法 , 它 
们 之 间 有 联系 也 有 区 别 。 

主 成 分 分 析 (PCA ) 是 一 种 数据 降 维 技巧 ， 它 能 将 大 量 相关 变量 转化 为 一 组 很 少 的 不 相关 变 
量 ,， 这些 无 关 变 量 称 为 主 成 分 。 例如， 使 用 PCA 可 将 30 个 相关 (很 可 能 宛 余 ) 的 环境 变量 转化 为 
5 个 无 关 的 成 分 变量 ， 并 且 尽 可 能 地 保留 原始 数据 集 的 信息 。 

相对 而 言 ， 探 索性 因子 分 析 ( EFA ) 是 一 系列 用 来 发 现 一 组 变量 的 潜在 结构 的 方法 。 它 通过 
寻找 一 组 更 小 的 、 潜 在 的 或 隐藏 的 结构 来 解释 已 观测 到 的 、 显 式 的 变量 间 的 关系 。 例 如 ， 
Harman74.cor 包 含 了 24 个 心理 测验 间 的 相互 关系 ， 受 试 对 象 为 145 个 七 年 级 或 八 年 级 的 学 生 。 
假使 应 用 EFA 来 探索 该 数据 , 结果 表明 276 个 测验 间 的 相互 关系 可 用 四 个 学 生 能 力 的 潜在 因子 ( 语 
言 能 力 、 反 应 速度 、 推 理 能 力 和 记忆 能 力 ) 来 进行 解释 。 

PCA 与 EFA 模 型 间 的 区 别 参见 图 14-1。 主 成 分 (PC1 和 PC2 ) 是 观测 变量 ( X1 到 X5 ) 的 线性 
组 合 。 形成 线性 组 合 的 权重 都 是 通过 最 大 化 各 主 成 分 所 解释 的 方差 来 获得 , 同时 还 要 保证 各 主 成 
分 间 不 相关 。 

相反 ， 因 子 (F1 和 F2 ) 被 当 作 观 测 变 量 的 结构 基础 或 “原因 ”， 而 不 是 它们 的 线性 组 合 。 代 
表 观 测 变 量 方 差 的 误差 (el 到 e5 ) 无 法 用 因子 来 解释 。 图 中 的 圆圈 表示 因子 和 误差 无 法 直接 观测 ， 
但 是 可 通过 变量 间 的 相互 关系 推导 得 到 。 在 本 例 中 , 因子 间 带 曲线 的 箭头 表示 它们 之 间 有 相关 性 。 
在 EFA 模 型 中 ， 相 关 因 子 是 常见 的 ， 但 并 不 是 必需 的 。 

本 章 介 绍 的 两 种 方法 都 需要 大 样本 来 支撑 稳定 的 结果 , 但 是 多 大 样本 量 才 足够 也 是 一 个 复杂 
的 问题 。 目 前 ， 数 据 分 析 师 常 使 用 经 验 法 则 :“ 因 子 分 析 需 要 5 ~ 10 倍 于 变量 数 的 样本 数 。” 最 近 
研究 表明 ， 所 需 样本 量 依赖 于 因子 数目 、 与 各 因子 相关 联 的 变量 数 ， 以 及 因子 对 变量 方差 的 解释 
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程度 (Bandalos & Boehm-Kaufman，2009 )。 我 冒险 推测 一 下 : 如 果 你 有 几 百 个 观测 ， 样 本 量 便 
已 充足 。 本 章 中 ， 为 保证 输出 结果 (和 篇 幅 原 因 ) 可 控 性 ， 我 们 将 人 为 设 定 一 些小 问题 。 


X1 
po 人 
































PC2 

















X5 

(a) 主 成 分 分 析 模 型 (b) 因子 分 析 模 型 

图 14-1 主 成 分 分 析 和 因子 分 析 模 型 。 图 中 展示 了 可 观测 变量 (X1 到 X5 ) 、 主 成 分 
(PC1、PC2 ) 、 因 子 (Fl1、F2 ) 和 误差 (el 到 es ) 


L6000 


























首先 ， 我 们 将 回顾 R 中 可 用 来 做 PCA 或 EFA 的 函数 ， 并 简略 看 一 看 相关 分 析 流 程 。 然 后 ， 逐 
步 分 析 两 个 PCA 示 例 ， 以 及 一 个 扩展 的 EFA 示 例 。 最 后 ， 本 章 简要 列 出 R 中 其 他 拟 合 潜 变 量 模 型 


的 软件 包 ， 包 括 用 于 验证 性 因子 分 析 、 结 构 方程 模型 、 对 应 分 析 和 潜在 类 别 分 析 的 软件 包 。 


14.1 R 中 的 主 成 分 和 因子 分 析 
R 的 基础 安装 包 提 供 了 PCA 和 EFA 的 函数 ,分 别 为 princomp () 和 factanal ()。 本 章 我 们 将 
重点 介绍 psych 包 中 提供 的 函数 。 它 们 提供 了 比 基 础 函数 更 丰富 和 有 用 的 选项 。 另 外 ,输出 的 结 
果 形 式 也 更 为 社会 学 家 所 熟悉 ， 与 其 他 统计 软件 如 (SAS 和 SPSS ) 所 提供 的 输出 十 分 相似 。 
表 14-1 列 出 了 psych 包 中 相关 度 最 高 的 函数 。 在 使 用 这 些 函 数 前 请 确保 已 安装 该 软件 包 。 
表 14-1 psych 包 中 有 用 的 因子 分 析 函 数 
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函数 描 述 
principal () 含 多 种 可 选 的 方差 旋转 方法 的 主 成 分 分 析 
fa () 可 用 主轴 、 最 小 残 差 、 加 权 最 小 平方 或 最 大 似 然 法 估计 的 因子 分 析 
fa.parallel () 含 平行 分 析 的 碎 石 图 
factor.plot () 绘制 因子 分 析 或 主 成 分 分 析 的 结果 
fa.diagram() 绘制 因子 分 析 或 主 成 分 的 载荷 矩阵 
scree () 因子 分 析 和 主 成 分 分 析 的 碎 石 图 























初学 者 常会 对 EFA ( 和 自由 度 较 少 的 PCA ) 感到 困惑 。 因 为 它们 提供 了 一 系列 应 用 广泛 的 方 
法 ,而 且 每 种 方法 都 需要 一 些 步 又 ( 和 决策 ) 才能 获得 最 终结 果 。 最 常见 的 步骤 如 下 。 

(1) 数据 预 处 理 。PCA 和 EFA 都 根据 观测 变量 间 的 相关 性 来 推导 结果 。 用 户 可 以 输入 原始 数 
据 和 矩阵 或 者 相关 系数 矩阵 到 principal () 和 fa() 函数 中 。 知 输入 初始 数据 ， 相 关系 数 和 矩阵 将 会 
被 自动 计算 ， 在 计算 前 请 确保 数据 中 没有 缺失 值 。 
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(2) 选择 因子 模型 。 判 断 是 PCA ( 数据 降 维 ) 还 是 EFA ( 发 现 潜 在 结构 ) 更 符合 你 的 研究 目 
标 。 如 果 选 择 EFA 方 法 ， 你 还 需要 选择 一 种 估计 因子 模型 的 方法 〈 如 最 大 似 然 估计 )。 

(3) 判断 要 选择 的 主 成 分 /因子 数目 。 

(4) 选择 主 成 分 /因子 。 

(5) 旋转 主 成 分 /因子 。 

(6) 解释 结果 。 

(7) 计算 主 成 分 或 因子 得 分 。 
后 面 几 节 将 从 PCA 开 始 ,详细 讨论 分 析 的 每 一 个 步骤 。 本 章 最 后 ,会 给 出 一 个 详细 的 PCA/EFA 
分 析 流 程 图 (图 14-7 )。 结 合 相关 材料 ， 流 程 图 能 够 进一步 加 深 你 对 模型 的 理解 。 


14.2 ” 主 成 分 分 析 


PCA 的 目标 是 用 一 组 较 少 的 不 相关 变量 代替 大 量 相关 变量 ， 同 时 尽 可 能 保留 初始 变量 的 信 

息 ， 这 些 推导 所 得 的 变量 称 为 主 成 分 ， 它 们 是 观测 变量 的 线性 组 合 。 如 第 一 主 成 分 为 : 
PC =a X,+a,X,+:.……+a,X, 

它 是 k 个 观测 变量 的 加 权 组 合 ， 对 初始 变量 集 的 方差 解释 性 最 大 。 第 二 主 成 分 也 是 初始 变量 
的 线性 组 合 ， 对 方差 的 解释 性 排 第 二 ， 同 时 与 第 一 主 成 分 正 交 ( 不 相关 )。 后 面 每 一 个 主 成 分 都 
最 大 化 它 对 方差 的 解释 程度 ， 同 时 与 之 前 所 有 的 主 成 分 都 正 交 。 理论 上 来 说 , 你 可 以 选取 与 变量 
数 相同 的 主 成 分 , 但 从 实用 的 角度 来 看 ,我 们 都 希望 能 用 较 少 的 主 成 分 来 近似 全 变量 集 。 下 面 看 
一 个 简单 的 示例 。 

数据 集 USJudgeRatings 包 含 了 律师 对 美国 高 等 法 院 法 官 的 评分 。 数 据 框 包含 43 个 观测 ，12 
个 变量 。 表 14-2 列 出 了 所 有 的 变量 。 


表 14-2 USJudgeRatings 数 据 集中 的 变量 



































































































































变 量 描 述 变 量 描 述 
CONT 律师 与 法 官 的 接触 次 数 PREP 审理 前 的 准备 工作 
INTG 法 官 正 直 程度 FAME 对 法 律 的 熟 答 程 度 
DMNR 风度 ORAL 口头 裁决 的 可 靠 度 
DILG 勤勉 度 WRIT 书面 裁决 的 可 靠 度 
CEMG 案例 流程 管理 水 平 PHYS 体能 
DECI 决策 效率 RTEN 是 否 值得 保留 











从 实用 的 角度 来 看 ， 你 是 否 能 够 用 较 少 的 变量 来 总 结 这 11 个 变量 (从 INTG 到 RTEN ) 评估 的 
信息 呢 ? 如 果 可 以 , 需要 多 少 个 ”如何 对 它们 进行 定义 呢 ? 因为 我 们 的 目标 是 简化 数据 , 所 以 可 
使 用 PCA。 数 据 保持 初始 得 分 的 格式 ， 没 有 缺失 值 。 因 此 ， 下 一 步 便 是 判断 需要 多 少 个 主 成 分 。 


14.2.1 判断 主 成 分 的 个 数 
以 下 是 一 些 可 用 来 判断 PCA 中 需要 多 少 个 主 成 分 的 准则 ; 
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口 根据 先 验 经 验 和 理论 知识 判断 主 成 分 数 ; 














口 通过 检查 变量 间 kxk 的 相关 系数 和 矩阵 来 判断 保留 
最 常见 的 是 基于 特征 值 的 方法 。 每 个 主 成 分 都 与 相 



































与 最 大 的 特征 值 相关 联 ， 第 二 主 成 分 与 第 二 大 的 特征 值 相关 联 ， 依 此 类 推 。Kaiser-Harris 准 则 建 


口 根据 要 解释 变量 方差 的 积累 值 的 阔 值 来 判断 需要 的 主 成 分 数 ; 


的 主 成 分 数 。 
关系 数 和 矩阵 的 特征 值 相关 联 , 第 一 主 成 分 











议 保 留 特征 值 大 于 1 的 主 成 分 ， 特 征 值 小 于 1 的 成 分 所 解释 的 方差 比 包含 在 单个 变量 中 的 方差 更 
少 。Cattell 碎 石 检验 则 绘制 了 特征 值 与 主 成 分 数 的 图 形 。 这 类 图 形 可 以 清晰 地 展示 图 形 弯 曲 状况 ， 

















在 图 形变 化 最 大 人 处 之 上 的 主 成 分 都 可 保留 。 最 后 ,你 还 





可 以 进行 模拟 ,依据 与 初始 矩阵 相同 大 小 


的 随机 数据 矩阵 来 判断 要 提取 的 特征 值 。 若 基于 真实 数据 的 某 个 特征 值 大 于 一 组 随机 数据 矩 阵 相 














的 “Factor Retention Decisions in Exploratory Factor Analy 
利用 fa.parallel() 函数 , 你 可 以 同时 对 三 种 特 生 
去 了 coNT 变 量 )， 代 码 如 下 : 


library (psych) 





应 的 平均 特征 值 ， 那 么 该 主 成 分 可 以 保留 。 该 方法 称 作 平 行 分 析 ( 详 见 Hayton、Allen 和 Scarpello 


sis: A Tutorial on Parallel Analysis” , 2004 )。 
E 值 判别 准则 进行 评价 。 对 于 11 种 评分 ( 删 





fa.parallel (USJudgeRatings[,-1], fa="pc", n.iter=100, 


show.legend=FALSE, main="Scree plot with parallel analysis") 


代码 生成 图 形 见 图 14-2, 展示 了 基于 观测 特征 值 的 碎 石 检验 ( 由 线段 和 x 符号 组 成 )、 根据 100 
个 随机 数据 矩阵 推导 出 来 的 特征 值 均值 ( 虚线 )， 以 及 大 于 1 的 特征 值 准则 (y=1 的 水 平 线 )。 











Scree plot with parallel analysis 


eigen values of principal components 





6 
Factor Num 


图 14-2 ”评价 美国 法 官 评 分 中 要 保留 的 主 成 分 个 数 




















8 
ber 


。 碎 石 图 ( 直线 与 x 符号 ) 、 特 征 值 




















大 于 1 准则 (水平线 ) 和 100 次 模拟 的 平行 分 析 ( 虚线 ) 都 表明 保留 一 个 主 成 分 


即 可 


三 种 准则 表明 选择 一 个 主 成 分 即 可 保留 数据 集 的 大 部 分 信息 。 下 一 步 是 使 用 principal () 
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函数 挑选 出 相应 的 主 成 分 。 
14.2.2 ”提取 主 成 分 


之 前 已 
析 。 格 式 为 


principal(r, 


其 中 : 





经 介 





绍 过 ，principal () 函数 可 以 根据 原始 数据 矩阵 或 者 相关 系数 和 矩阵 做 主 成 分 分 





nfactors=, rotate=, scores=) 




















口 z 是 相关 系数 矩阵 或 原始 数据 矩阵 ; 

口 nfactors 设 定 主 成 分 数 ( 默认 为 1 ); 

口 rotate 指 定 旋转 的 方法 ( 默认 最 大 方差 旋转 ( varimax )， 见 14.2.3 节 ); 
口 scores 设 定 是 否 需 要 计算 主 成 分 得 分 ( 默认 不 需要 )。 





使 用 代码 清单 14-1 中 的 代码 可 获取 第 一 主 成 分 。 


代码 清单 14-1 
> library (psych) 
> pc <- principal (USJudgeRatings[,-1], nfactors=1) 


> Be 


美国 法 官 评分 的 主 成 分 分 析 


Principal Components Analysis 
principal(r = USJudgeRatings[, -1], nfactors=1) 
Standardized loadings based upon correlation matrix 


Call: 


INTG 
DMNR 
DILG 
CFMG 
DECI 


FAMI 
ORAL 
WRIT 
PHYS 
RTEN 


0 
0 
0 
0 
0 
PREP 0 . 
0 
业 
0 
0 
0 


PC1 


SS loadings 
Proportion Var 0.92 


[…… 已 删除 额外 输出 ……] 


此 处 ， 你 输入 的 是 没有 coONT 变 量 的 原始 数据 ， 并 指定 获取 一 个 未 旋转 〈 参 见 14.3.3 节 ) 的 主 
成 分 。 由 于 PCA 只 对 相关 系数 矩阵 进行 分 析 , 在 获取 主 成 分 前 ， 原 始 数据 将 会 被 自动 转换 为 相关 


系数 和 矩阵。 


PC1 栏 包含 了 成 分 载荷 ， 


0 
0 
0 
0 
0 
0 . 
0 
0 
0 
0 
0 


u2 
:1:57 
.166 
.061 
07 名 
.076 
.030 
.047 
.009 
020 
2 二 
.028 


2 


有 CH 
T1013 





指 观测 变量 与 主 成 分 的 相关 系数 。 如 果 提 取 不 止 一 个 主 成 分 ， 那么 


还 将 会 有 PC2 、PC3 等 栏 。 成 分 载荷 (component loadings ) 可 用 来 解释 主 成 分 的 含义 。 此 处 可 以 
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看 到 ， 第 一 主 成 分 ( PC1 ) 与 每 个 变量 都 高 度 相 关 ， 也 就 是 说 ， 它 是 一 个 可 用 来 进行 一 般 性 评价 
的 维度 。 

h2 栏 指 成 分 公 因子 方差 ， 即 主 成 分 对 每 个 变量 的 方差 解释 度 。u2 栏 指 成 分 唯一 性 ， 即 方差 
无 法 被 主 成 分 解释 的 比例 ( 1-h2 )。 例 如 ， 体 能 ( PHYS ) 80% 的 方差 都 可 用 第 一 主 成 分 来 解释 ， 
20% 不 能 。 相 比 而 言 ， PHYS 是 用 第 一 主 成 分 表示 性 最 差 的 变量 。 

SS loadings 行 包含 了 与 主 成 分 相关 联 的 特征 值 , 指 的 是 与 特定 主 成 分 相关 联 的 标准 化 后 的 
方差 值 ( 本 例 中 ， 第 一 主 成 分 的 值 为 10 )。 最 后 ，Proportion Var 行 表示 的 是 每 个 主 成 分 对 整 
个 数据 集 的 解释 程度 。 此 处 可 以 看 到 ， 第 一 主 成 分 解释 了 11 个 变量 92% 的 方差 。 

让 我 们 再 来 看 看 第 二 个 例子 ， 它 的 结果 不 止 一 个 主 成 分 。Harman23 .cor 数 据 集 包 含 305 个 
女孩 的 8 个 身体 测量 指标 ,本 例 中 ,数据 集 由 变量 的 相关 系数 组 成 , 而 不 是 原始 数据 集 ( 见 表 14-3 )。 


表 14-3” ”305 个 女孩 的 身体 指标 间 的 相关 系数 (Harman23 .cor) 






















































































身高 指 距 前 臂 小 腿 体重 股骨 转子 间 径 胸围 胸 宽 
身高 1.00 0.85 0.80 0.86 0.47 0.40 0.30 0.38 
指 距 0.85 1.00 0.88 0.83 0.38 0.33 0.28 0.41 
前 辟 0.80 0.88 1.00 0.80 0.38 0.32 0.24 0.34 
小 腿 0.86 0.83 0.80 1.00 0.44 0.33 0.33 0.36 
体重 0.47 0.38 0.38 0.44 1.00 0.76 0.73 0.63 
股骨 转子 间 径 0.40 0.33 0.32 0.33 0.76 1.00 0.58 0.58 
胸围 0.30 0.28 0.24 0.33 0.73 0.58 1.00 0.54 
胸 宽 0.38 0.41 0.34 0.36 0.63 0.58 0.54 1.00 


来 源 : Harman, H. H. (1976) Modern Factor Analysis, Third Edition Revised, University of Chicago Press, Table 2.3 


同样 地 , 我们 希望 用 较 少 的 变量 替换 这 些 原始 身体 指标 ,如 下 代码 可 判断 要 提取 的 主 成 分 数 。 
此 处 , 你 需要 填 人 相关 系数 矩阵 ( Harman23 .cor 对 象 中 的 cov 部 分 ), 并 设 定 样 本 大 小 (n. obs ): 
library (psych) 


fa.parallel (Harman23 .corS$cov, n.obs=302, fa="pc", n.iter=100, 
show.legend=FALSE, main="Scree plot with parallel analysis") 











结果 见 图 14-3。 
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Scree plot with parallel analysis 


eigen values of principal components 





Factor Number 


图 14-3 ”判断 身体 测量 数据 集 所 需 的 主 成 分 数 。 碎 石 图 ( 直线 和 x 符号 ) 、 特 征 值 大 于 
1 准则 (水平线 ) 和 100 次 模拟 ( 虚线 ) 的 平行 分 析 建 议 保留 两 个 主 成 分 


与 第 一 个 例子 类 似 ， 图 形 中 的 Kaiser-Harris 准 则 、 碎 石 检验 和 平行 分 析 都 建议 选择 两 个 主 成 
分 。 但 是 三 个 准备 并 不 总 是 相同 , 你 可 能 需要 依据 实际 情况 提取 不 同 数目 的 主 成 分 选择 最 优 解 
决 方案 。 代 码 清单 清单 14-2 从 相关 系数 和 矩阵 中 提取 了 前 两 个 主 成 分 。 


代码 清单 14-2 身体 测量 指标 的 主 成 分 分 析 
> library (psych) 


> pc <- principal (Harman23.cor$cov, nfactors=2, rotate="none") 
> pc 












































Principal Components Analysis 


Call: principal(r = Harman23.cors$cov, nfactors = 2, rotate = "none") 
Standardized loadings based upon correlation matrix 
PC1 PC2 hi2 u2 
height 0286 -0537 :05.88 0 L123 
arm.span 0.84 -0.44 0.90 0.097 
forearm 0.81 -0.46 0.87 0.128 
lower.leg 0.84 -0.40 0.86 0.139 
weight OQ GY HON O857 0 LS0 
bitro.diameter 0.67 0.53 0.74 0.261 
chest .girth 0:62 0s58 .02 0..283 
chest .width 0.67 “00.42 0.62 0,.375 

PC1 PC2 
SS loadings Ca Sy a WN 


Proportion Var 0.58 0.22 
Cumulative Var 0.58 0.81 
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[…… 已 删除 额外 输出 ……] 


从 代码 清单 14-2 中 的 Pc1 和 PCc2 栏 可 以 看 到 , 第 一 主 成 分 解释 了 身体 测量 指标 58% 的 方差 , 而 
第 二 主 成 分 解释 了 22% ， 两 者 总 共 解 释 了 81% 的 方差 。 对 于 高 度 变量 ， 两 者 则 共 解 释 了 其 88% 的 
方 考 。 

载荷 阵 解释 了 成 分 和 因子 的 含义 。 第 一 主 成 分 与 每 个 身体 测量 指标 都 正 相 关 , 看 起 来 似乎 是 
一 个 一 般 性 的 衡量 因子 ;第 二 主 成 分 与 前 四 个 变量 ( height ,arm. span、forearm 和 1]ower .1eg ) 
负 相 关 , 与 后 四 个 变量 (weight、bitro.diameter、chest.girth 和 chest .wigdtnhn ) 正 相关 ， 
因此 它 看 起 来 似乎 是 一 个 长 度 - 容量 因子 。 但 理念 上 的 东西 都 不 容易 构建 , 当 提取 了 多 个 成 分 时 ， 
对 它们 进行 旋转 可 使 结果 更 具 解 释 性 ， 接 下 来 我 们 便 讨论 该 问题 。 


14.2.3 ” 主 成 分 旋转 


旋转 是 一 系列 将 成 分 载荷 阵 变 得 更 容易 解释 的 数学 方法 , 它们 尽 可 能 地 对 成 分 去 品 。 旋 转 方 
法 有 两 种 : 使 选择 的 成 分 保持 不 相关 ( 正 交 旋转 )， 和 让 它们 变 得 相关 ( 斜 交 旋转 )。 旋转 方法 也 
会 依据 去 噪 定义 的 不 同 而 不 同 。 最 流行 的 正 交 旋转 是 方差 极 大 旋转 , 它 试 图 对 载荷 阵 的 列 进行 
品 , 使 得 每 个 成 分 只 由 一 组 有 限 的 变量 来 解释 ( 即 载荷 阵 每 列 只 有 少数 几 个 很 大 的 载荷 ， 其 他 都 
是 很 小 的 载荷 )。 对 身体 测量 数据 使 用 方差 极 大 旋转 ， 你 可 以 得 到 如 代码 清单 14-3 所 示 的 结果 。 
14.4 广 将 介绍 斜 交 旋转 的 示例 。 


代码 清单 14-3 方差 极 大 旋转 的 主 成 分 分 析 
> rc <- principal (Harman23.corS$cov, nfactors=2, rotate="varimax") 
ee! 














































































































Principal Components Analysis 





Call: principal(r = Harman23.cors$cov, nfactors = 2, rotate = "varimax") 
Standardized loadings based upon correlation matrix 
RELE “RE2 h2 u2 
height Qi QO O25 O88 QL23 
arm.span 9 019 VI W097 
forearm O92 720 :6.70 BY (O28 
lower.leg Q290.0.22 0Q.86 0:139 
weight O02.6. :088. .0.85 0150 
bitro.diameter 0.19 0.84 0.74 0.261 
chest .girth OQ. E10 8072 :0..2:83 
chest .widthn Qs 26. 105. O62 “0375 

RC1 RC2 
SS loadings 3 52. 2792 


Proportion Var 0.44 0.37 
Cumulative Var 0.44 0.81 


列 的 名 字 都 从 PC 变 成 了 RC， 以 表示 成 分 被 旋转 。 观 察 Rcl1 栏 的 载荷 ， 你 可 以 发 现 第 一 主 成 分 
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主要 由 前 四 个 变量 来 解释 (长度 变 量 )。RcC2 栏 的 载荷 表示 第 二 主 成 分 主要 由 变量 5 到 变量 8 来 解 
释 ( 容量 变量 )。 注 意 两 个 主 成 分 仍 不 相关 ， 对 变量 的 解释 性 不 变 ， 这 是 因为 变量 的 群 组 没有 发 
生变 化 。 另 外 ， 两 个 主 成 分 旋转 后 的 累积 方差 解释 性 没有 变化 〈81% )， 变 的 只 是 各 个 主 成 分 对 
方差 的 解释 度 (成 分 1 从 58% 变 为 44%， 成 分 2 从 22% 变 为 37% )。 各 成 分 的 方差 解释 度 趋同 ， 准 确 
来 说 ， 此 时 应 该 称 它们 为 成 分 而 不 是 主 成 分 ( 因为 单个 主 成 分 方差 最 大 化 性 质 没 有 保留 )。 

我 们 的 最 终 目 标 是 用 一 组 较 少 的 变量 替换 一 组 较 多 的 相关 变量 ,因此 , 你 还 需要 获取 每 个 观 
测 在 成 分 上 的 得 分 。 


14.2.4 获取 主 成 分 得 分 

在 美国 法 官 评分 例子 中 ,我 们 根据 原始 数据 中 的 11 个 评分 变量 提取 了 一 个 主 成 分 。 利 用 
principal () 函数 ， 你 很 容易 获得 每 个 调查 对 象 在 该 主 成 分 上 的 得 分 ( 见 代码 清单 14-4 )。 
代码 清单 14-4 ”从 原始 数据 中 获取 成 分 得 分 


> library (psych) 
> pc <- principal (USJudgeRatings[,-1], nfactors=1, score=TRUE) 
> head (pc$scores) 





















































PC 
AARONSON,L.H. -0.1857981 
ALEXANDER,J.M. 0.7469865 
ARMENTANO,A.J. 0.0704772 


BERDON,R.I. 1.1358765 
BRACKEN,J.J. -2.1586211 
BURNS, E.B. 0.7669406 


当 scores = TRUE 时 ， 主 成 分 得 分 存储 在 principal () 函数 返回 对 象 的 scores 元 素 中 。 如 
果 有 需要 ， 你 还 可 以 获得 律师 与 法 官 的 接触 频数 与 法 官 评分 间 的 相关 系数 : 
> cor (USJudgeRatingdsSCONT，pcSsscore) 


PC1 
[1,] -0.008815895 


显然 ,律师 与 法 官 的 熟 答 度 与 律师 的 评分 毫 无 关联 。 

当主 成 分 分 析 基 于 相关 系数 矩阵 时 , 原始 数据 便 不 可 用 了 , 也 不 可 能 获取 每 个 观测 的 主 成 分 
得 分 ， 但 是 你 可 以 得 到 用 来 计算 主 成 分 得 分 的 系数 。 

在 身体 测量 数据 中 ， 你 有 各 个 身体 测量 指标 间 的 相关 系数 ， 但 是 没有 305 个 女孩 的 个 体 测量 
值 。 按 照 代码 清单 14-5， 你 可 得 到 得 分 系数 。 


代码 清单 14-5 ”获取 主 成 分 得 分 的 系数 
> library (psych) 
> rc <- principal (Harman23.corS$cov, nfactors=2, rotate="varimax") 
> round(unclass (rcSsweights), 2) 
































RC1 RC2 
height Qs28. S003 
arm.span QQ.30 008 


forearm 0.30 二 009 
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lower.leg Ow2.8. 0506 
weight :0.06 “0. 33 
bitro.diameter -0.08 0.32 
chest .girth =0i10 0 不 
chest .widthn -0.04 0.27 


利用 如 下 公式 可 得 到 主 成 分 得 分 : 


PC1 = 0.28*height + 0.30*arm.span + 0.30*forearm + 0.29*lower.leg - 
0.06*weight - 0.08*bitro.diameter - 0.10*chest.girth -— 
0.04*chest .width 


和 |: 


PC2 = -0.05*height - 0.08*arm.span - 0.09*forearm - 0.06*lower.leg + 
0.33*weight + 0.32*pbitro.diameter + 0.34*chest.girth + 
0.27*chest .width 


两 个 等 式 都 假定 身体 测量 指标 都 已 标准 化 (mean=0，sd=1 )。 注 意 ， 体 重 在 PC1 上 的 系数 约 
为 0.3 或 0， 对 于 PC2 也 是 一 样 。 从 实际 角度 考虑 ， 你 可 以 进一步 简化 方法 ， 将 第 一 主 成 分 看 作 前 
四 个 变量 标准 化 得 分 的 均值 ; 类 似 地 , 将 第 二 主 成 分 看 作 后 四 个 变量 标准 化 得 分 的 均值 , 这 正 是 
我 通常 在 实际 中 采用 的 方法 。 





























“小 瞬间 ”(Little Jiffy) 征服 世界 

许多 数据 分 析 师 都 对 PCA 和 EFA 存 有 或 多 或 少 的 疑惑 。 一 个 是 历史 原因 ， 它 可 以 追溯 到 一 
个 叫 作 Little Jiffy 的 软件 (不 是 玩笑 )。Little Jiffy 是 因子 分 析 早 期 最 流行 的 一 款 软件 ， 默 认 做 主 
成 分 分 析 ， 选 用 方差 极 大 旋转 法 ， 提 取 特 征 值 大 于 1 的 成 分 。 这 款 软 件 应 用 得 如 此 广泛 ， 以 至 
于 许多 社会 科学 家 都 默认 它 与 EFA 同 义 。 许 多 后 来 的 统计 软件 包 在 它们 的 EFA 程 序 中 都 默认 如 
此 处 理 。 

但 我 希望 你 通过 学 习 下 一 节 内 容 发 现 PCA 与 EFA 间 重要 的 、 基 础 性 的 不 同 之 处 。 想 更 多 了 
解 PCA/EFA 的 混 消 点 ， 可 参阅 Hayton 、Allen 和 Scarpello 的 “Factor Retention Decisions in 
Exploratory Factor Analysis: A Tutorial on Parallel Analysis”( 2004 )。 











如 果 你 的 目标 是 寻求 可 解释 观测 变量 的 潜在 隐 仿 变量， 可 使 用 因子 分 析 ， 这 正 是 下 一 节 的 
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EFA 的 目标 是 通过 发 掘 隐藏 在 数据 下 的 一 组 较 少 的 、 更 为 基本 的 无 法 观测 的 变量 ,来 解释 一 
组 可 观测 变量 的 相关 性 。 这 些 虚拟 的 、 无 法 观测 的 变量 称 作 因子 。( 每 个 因子 被 认为 可 解释 多 个 
观测 变量 间 共 有 的 方差 ， 因 此 准确 来 说 ， 它 们 应 该 称 作 公 共 因子 。) 

模型 的 形式 为 : 
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其 中 是 第 i 个 可 观测 变量 (二 1…k), 


X=aF tah t+.…+a 


部 分 (无 法 被 公共 因子 解释 )。a; 可 认为 
章 开 头 的 Harman74 .cor 的 例子 , 我 们 认为 每 个 个 体 在 24 个 心理 学 测验 上 的 观测 得 分 ,是 根据 四 
个 潜在 心理 学 因素 的 加 权能 力 值 组 合 而 成 。 























释 参 与 者 的 测验 得 分 呢 ? 
数据 集 ability.cov 提 供 了 变量 的 协 方差 矩阵 ， 你 可 用 cov2cor () 函数 将 其 转化 为 相关 系 
数 和 矩阵 。 数 据 集 没 有 缺失 值 。 





> options (digits=2) 
> covariances <- ability.cov$cov 
> correlations <- cov2cor(covariances) 
> correlations 

general picture blocks maze reading 
general O00 0.47 QS 0%..34 0.58 
picture 0.47 1.00 0%57 O19 0.26 
blocks 0.55 0557 1.00 0.45 0..35 
maze 0.34 0.19 0.45 1.00 0.18 
reading 0.58 0.26 0.35 0.18 1.00 
vocab 0.51 0.24 QO..30 -0.22 0..79 








是 公 


共 因 子 ( 谨 1…p ), 并 | 


Re 


pp 


























是 p<k。U 是 多 变量 独 有 的 
是 每 个 因子 对 复合 而 成 的 可 观测 变量 的 贡献 值 。 回 到 本 





虽然 PCA 和 EFA 存 在 差异 ， 但 是 它们 的 许多 分 析 步 又 都 是 相似 的 。 为 阐述 EFA 的 分 析 过 程 ， 

我 们 用 它 来 对 六 个 心理 学 测验 间 的 相关 性 进行 分 析 。112 个 人 参与 了 六 个 测验 ， 包 括 非 语言 的 普 
通 智力 测验 ( general )、 画 图 测验 (picture )、 积 木 图 案 测验 (blocks )、 迷 宫 测 验 (maze )、 
阅读 测验 ( reading ) 和 词汇 测验 (vocab )。 我 们 如 何 用 一 组 较 少 的 、 潜 在 的 心 型 





因为 要 寻求 用 来 解释 数据 的 潜在 结构 ， 可 使 用 EFA 方 法 。 与 使 用 PCA 相 同 ， 下 一 步 工 作为 判 
断 需 要 提取 儿 个 因子 。 


14.3.1 








nops=112., 


判断 需 提取 的 公共 因子 数 
用 fa .parallel () 函数 可 判断 需 提取 的 因子 数 : 


library (psych) 
covariances <- ability.cov$cov 
correlations <- cov2cor (covariances) 
fa.parallel (correlations, 


下 二 SOHU 
main="Scree plots with parallel analysis") 


结果 见 图 14-4。 注 意 , 代码 中 使 用 了 fa="pboth"， 因子 图 形 将 会 同时 展示 主 成 分 和 公共 因子 分 析 


n.iter=100, 
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Scree plots with parallel analysis 


一 上 PC Actual Data 
“*** PC Simulated Data 
A- FA Actual Data 
“*** FA Simulated Data 


3.0 


5 





20 


1.0 


eigenvalues of principal components and factor analysis 
0.5 1.5 





0.0 


Factor Number 


图 14-4 判断 心理 学 测验 需要 保留 的 因子 数 。 图 中 同时 展示 了 PCA 和 EFA 的 结果 。 
PCA 结 果 建 议 提取 一 个 或 者 两 个 成 分 ，EFA 建 议 提 取 两 个 因子 


图 形 中 有 几 个 值得 注意 的 地 方 。 如 果 使 用 PCA 方 法 ,你 可 能 会 选择 一 个 成 分 ( 碎 石 检验 和 平 
行 分 析 ) 或 者 两 个 成 分 ( 特征 值 大 于 1 )。 当 摇摆 不 定时 , 高 估 因 子 数 通常 比 低估 因子 数 的 结果 好 ， 
因为 高 佑 因子 数 一 般 较 少 曲解 “真实 ”人 情况。 

观察 EFA 的 结果 ,显然 需 提取 两 个 因子 。 碎 石 检验 的 前 两 个 特征 值 (三 角形 ) 都 在 拐角 处 之 
上 ,并 且 大 于 基于 100 次 模拟 数据 矩阵 的 特征 值 均值 。 对 于 EFA ，Kaiser-Harris 准 则 的 特征 值 数 大 
于 0， 而 不 是 1。( 大 部 分 人 都 没有 意识 到 这 一 点 。) 图 形 中 该 准则 也 建议 选择 两 个 因子 。 




































































14.3.2 ”提取 公共 因子 
现在 你 决定 提取 两 个 因子 ， 可 以 使 用 fa () 函数 获得 相应 的 结果 。fa () 函数 的 格式 如 下 : 


falr, nfactors=, n.obs=, rotate=, scores=, fm=) 





其 中 : 
口 r 是 相关 系数 矩阵 或 者 原始 数据 矩阵 ; 

口 nfactors 设 定 提 取 的 因子 数 ( 默认 为 1 ); 

口 n.obs 是 观测 数 ( 输入 相关 系数 矩阵 时 需要 填写 ); 
口 rotate 设 定 旋转 的 方法 ( 默认 互 变 异 数 最 小 法 ); 
口 scores 设 定 是 否 计算 因子 得 分 ( 默认 不 计算 ); 

口 fm 设 定 因 子 化 方法 ( 默认 极 小 残 差 法 )。 
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与 PCA 不 同 ， 提 取 公 共 因 子 的 方法 很 多 ， 包 括 最 大 似 然 法 (ml )、 主 轴 人 迭代 法 (pa )、 加 权 
最 小 二 乘法 (wls )、 广 义 加 权 最 小 二 乘法 ( gls ) 和 最 小 残 差 法 (minres )。 统计 学 家 青睐 使 用 
最 大 似 然 法 ， 因 为 它 有 良好 的 统计 性 质 。 不 过 有 时 候 最 大 似 然 法 不 会 收 僵 ， 此 时 使 用 主轴 壕 代 法 
效果 会 很 好 。 欲 了解 更 多 提取 公共 因子 的 方法 ， 可 参阅 Mulaik ( 2009 ) 和 Corsuch ( 1983 )。 

本 例 使 用 主轴 和 迭 代 法 ( fm="pa" ) 提取 未 旋转 的 因子 。 结 果 见 代码 清单 14-6。 


代码 清单 14-6 ”未 旋转 的 主轴 迭代 因子 法 











> fa <- fal(lcorrelations, nfactors=2, rotate="none", fm="pa") 

> 

Factor Analysis using method = pa 

Call: fal(lr = correlations, nfactors = 2, rotate = "none", fm = "pa") 


Standardized loadings based upon correlation matrix 
PA1 PA2 hi2 这 之 


general 0.75 0.07 0.57 0.43 
DICtUre 0%52 032 00538 "0:5.62 
bloeks: 0575 ‘0%52 :0.83 0517 
maze O039° 5 022. 020..080 
reading 0.81 -051 O091 0.09 
vocab ONL: 0.039 O69 un03L 
PAl PA2 
SS loadings 2.75 0.83 


Proportion Var 0.46 0.14 

Cumulative Var 0.46 0.60 

[…… 已 删除 额外 输出 ……] 

可 以 看 到 ， 两 个 因子 解释 了 六 个 心理 学 测验 60% 的 方差 。 不 过 因子 载荷 阵 的 意义 并 不 太 好 解 
释 ， 此 时 使 用 因子 旋转 将 有 助 于 因子 的 解释 。 








14.3.3 ”因子 旋转 


你 可 以 使 用 正 交 旋 转 或 者 斜 交 旋转 来 旋转 14.3.4 节 中 两 个 因子 的 结果 。 现 在 我 们 同时 尝试 两 
种 方法 ， 看 看 它们 的 异同 。 首 先 使 用 正 交 旋转 ( 见 代 码 清单 14-7 )。 


代码 清单 14-7 用 正 交 旋转 提取 因子 
> fa.varimax <- fal(lcorrelations, nfactors=2, rotate="varimax", fm="pa") 
> fa.varimax 
Factor Analysis using method = pa 
Call: fal(lr = correlations, nfactors = 2, rotate = "varimax", fm = "pa") 
Standardized loadings based upon correlation matrix 
PAl PA2 h2 u2 








general 0.49 0.57 0.57 0.43 
picture 0.16 0.59 0.38 0.62 
blocks, 70%18 089 0..83: .0317 
maze 0.13 0.43 0.20 0.80 
reading 0.93 0.20 0.91 0.09 
vocab 0,80° 0823 0869 :031 
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PA1 PA2 
SS loadings T83175 
Proportion Var 0.30 0.29 
Cumulative Var 0.30 0.60 








结果 显示 因子 变 得 更 好 解释 了 。 阅 读 和 词汇 在 第 一 因子 上 载荷 较 大 , 画图 、 积 木 图 案 和 迷宫 
在 第 二 因子 上 载荷 较 大 , 非 语言 的 普通 智力 测量 在 两 个 因子 上 载荷 较为 平均 , 这 表明 存在 一 个 语 
言 智力 因子 和 一 个 非 语言 智力 因子 。 
使 用 正 交 旋转 将 人 为 地 强制 两 个 因子 不 相关 。 如 果 想 允许 两 个 因子 相关 该 怎么 办 呢 ? 此 时 可 
以 使 用 斜 交 转轴 法 ， 比 如 promax ( 见 代 码 清单 14-8 )。 


代码 清单 14-8 用 和 斜 交 旋转 提取 因子 
> fa.promax <- fal(correlations, nfactors=2, rotate="promax", fm="pa") 
> fa.promax 
Factor Analysis using method = pa 
Call: fa(lr = correlations, nfactors = 2, rotate = "promax", fm = "pa") 
Standardized loadings based upon correlation matrix 
PA1 PA2 h2 U2 



































General 0.36 0.49 0.57 0.43 
picture -0.04 0.64 0.38 0.62 
了 Lee =02512 -0980383 "07017 
maze 00 Qad5 O20 0..80 
Reading -La0L 0 L10891 08309 
vocab QB =0., 02. Qi 69 US 
PA1 PA2 
SS loadings T2832 L876 


Proportion Var 0.30 0.29 
Cumulative Var 0.30 0.60 


With factor correlations of 
PA1 PA2 

PAl 1.00 0.57 

PA2 0.57 1.00 

[已 删除 额外 输出 ……] 

根据 以 上 结果 ,你 可 以 看 出 正 交 旋转 和 和 斜 交 旋 转 的 不 同 之 处 。 对 于 正 交 旋 转 ， 因 子 分 析 的 重 
点 在 于 因子 结构 矩阵 〈 变量 与 因子 的 相关 系数 )， 而 对 于 斜 妆 旋转， 因子 分 析 会 考虑 三 个 和 矩阵: 
因子 结构 敌阵 、 因 子 模式 矩阵 和 因子 关联 矩阵 。 

因子 模式 矩阵 即 标准 化 的 回归 系数 憩 阵 。 它 列 出 了 因子 预测 变量 的 权重 。 因 子 关联 答 阵 即 因 
子 相关 系数 矩阵 。 

在 代码 清单 14-8 中 ，PA1 和 PaA2 栏 中 的 值 组 成 了 因子 模式 矩阵 。 它 们 是 标准 化 的 回归 系数 ， 
而 不 是 相关 系数 。 注 意 ， 和 矩阵 的 列 仍 用 来 对 因子 进行 命名 ( 虽然 此 处 存在 一 些 争 论 )。 你 同样 可 
以 得 到 一 个 语言 因子 和 一 个 非 语言 因子 。 

因子 关联 和 矩 阵 显 示 两 个 因子 的 相关 系数 为 0.57， 相 关 性 很 大 。 如 果 因 子 间 的 关联 性 很 低 ， 你 
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可 能 需要 重新 使 用 正 交 旋转 来 简化 问题 。 

因子 结构 矩阵 〈 或 称 因子 载荷 阵 ) 没有 被 列 出 来 ,但 你 可 以 使 用 公式 F = P*Phi 很 轻松 地 得 
到 它 ， 其 中 F 是 因子 载荷 阵 ，P 为 因子 模式 矩阵 ，Phi 为 因子 关联 矩阵。 下 面 的 函数 即 可 进行 该 乘 
法 运算 : 


fsm <- function(obliaque) { 











if (class (oblique) [2]=="fa" & is.null(oblique$Phi)) { 
warning ("Object doesn't look like oblique EFA") 
} else { 


P <- unclass (oblique$loading) 
F <- P %$*% obliquesphi 
colnames (F) <- C("PA1"， "PA2") 
zeturn (了 ) 

} 

} 


对 上 面 的 例子 使 用 该 函数 ， 可 得 : 


> fsml(fa.promax) 


PAl PA2 
general 0.64 0.69 
picture 0.33 0.61 
blocks 0.44 0.91 
maze 0.25 0.45 
reading 0.95 0.47 
vocab 0.83 0.46 


现在 你 可 以 看 到 变量 与 因子 间 的 相关 系数 。 将 它们 与 正 交 旋转 所 得 因子 载荷 阵 相 比 ,你 会 发 
现 该 载荷 阵列 的 噪音 比较 大 , 这 是 因为 之 前 你 允许 洪 在 因子 相关 。 虽 然 斜 灾 方 法 更 为 复杂 ,但 模 
型 将 更 符合 真实 数据 。 

使 用 factor.plot () 或 fa.diagram() 图 数 ， 你 可 以 绘制 正 交 或 者 斜 交 结果 的 图 形 。 来 看 
以 下 代码 : 


factor.plot (fa.promax, labels=rownames (fa.promax$loadings)) 


它 的 生成 图 形 见 图 14-5。 
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Factor Analysis 


国 
general 


PA2 








图 14-5 ”数据 集 ability .cov 中 心理 学 测验 的 两 因子 图 形 。 词 汇 和 阅读 在 第 一 个 因 
子 ( PA1 ) 上 载荷 较 大 ， 而 积木 图 案 、 夯 图 和 迷宫 在 第 二 个 因子 ( PA2 ) 上 载 
答 较 大 。 普 通 智 力 测验 在 两 个 因子 上 较为 平均 
































代码 : 
fa.diagram(fa.promax, simple=FALSE) 


生成 的 图 形 见 图 14-6。 若 使 simple = TRUE， 那 么 将 仅 显 示 每 个 因子 下 最 大 的 载 答 ， 以 及 因子 
间 的 相关 系数 。 这 类 图 形 在 有 多 个 因子 时 十 分 实用 。 


Factor Analysis 

















1 
">A 
0.6 


图 14-6 ”数据 集 ability .cov 中 心理 学 测验 的 两 因子 斜 交 旋 转 结果 图 
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当 处 理 真实 生活 中 的 数据 时 , 你 不 可 能 只 对 这 么 少 的 变量 进行 因子 分 析 。 此 处 只 是 为 了 操作 
方便 ， 如 果 你 想 检 测 自己 的 能 力 ， 可 尝试 对 Harman74 .cor 中 的 24 个 心理 学 测验 进行 因子 分 析 。 
以 下 代码 : 

library (psych) 

fa.24tests <- fal(lHarman74.cor$scov, nfactors=4, rotate="promax") 


应 该 是 个 不 错 的 开头 。 





14.3.4 ”因子 得 


相 比 PCA，EFA 并 不 那么 关注 计算 因子 得 分 。 在 fa () 函数 中 添加 score = TRUE 选项 ( 原始 
数据 可 得 时 ) 便 可 很 轻松 地 获得 因子 得 分 。 男 外 还 可 以 得 到 得 分 系数 ( 标准 化 的 回归 权重 )， 它 
在 返回 对 象 的 wveights 元 素 中 。 

对 于 ability .cov 数 据 集 ， 通 过 二 因子 斜 交 旋转 法 便 可 获得 用 来 计算 因子 得 分 的 权重 : 


> fa.promaxsweights 
[EL 











general 0.080 0.210 
picture 0.021 0.090 
blocks 0.044 0.695 
maze OO0237 008.5 
reading 0.739 0.044 
vocab OL:6.°.0.503.9 








与 可 精确 计算 的 主 成 分 得 分 不 同 ， 因 子 得 分 只 是 估计 得 到 的 。 它 的 估计 方法 有 多 种 ，fa () 
函数 使 用 的 是 回归 方法 。 若 想 更 多 地 了 解 因 子 得 分 ， 可 参阅 DiStefano 、Zhu 和 Mindri& 的 
“Understanding and Using Factor Scores: Considerations for the Applied Researcher” ( 2009 )。 

在 继续 下 文 之 前 ， 让 我 们 简单 了 解 其 他 用 于 探索 性 因子 分 析 的 实用 R 软 件 包 。 


14.3.5 ”其 他 与 EFA 相关 的 包 


R 包 含 了 其 他 许多 对 因子 分 析 非 常 有 用 的 软件 包 。FactoMineR 包 不 仅 提供 了 PCA 和 EFA 方 
法 , 还 包含 潜 变量 模型 。 它 有 许多 此 处 我 们 并 没 考虑 的 参数 选项 ， 比 如 数值 型 变量 和 类 别 型 变量 
的 使 用 方法 。FAiR 包 使 用 遗传 算法 来 估计 因子 分 析 模 型 ， 它 增强 了 模型 参数 估计 能 力 ， 能 够 处 
理 不 等 式 的 约束 条 件 ，GPArotation 包 则 提供 了 许多 因子 旋转 方法 。 最 后 ， 还 有 nFactors 包 ， 
它 提供 了 用 来 判断 因子 数目 的 许多 复杂 方法 。 


14.4 ”其 他 潜 变 量 模 型 
EFA 只 是 统计 中 一 种 应 用 广泛 的 潜 变 量 模 型 。 在 结束 本 章 之 前 ， 我 们 简要 看 看 R 中 其 他 的 潜 


变量 模型 , 包括 检验 先 验 知识 的 模型 、 处 理 混合 数据 类 型 ( 数值 型 和 类 别 型 ) 的 模型 ， 以 及 仅 基 
于 类 别 型 多 因素 表 的 模型 。 
















































































14.5 ”小 结 313 








在 EFA 中 ,你 可 以 用 数据 来 判断 需要 提取 的 因子 数 以 及 它们 的 含义 。 但 是 你 也 可 以 先 从 一 些 
先 验 知识 开始 , 比如 变量 背后 有 几 个 因子 、 变 量 在 因子 上 的 载荷 是 怎样 的 、 因 子 间 的 相关 性 如 何 ， 
然后 通过 收集 数据 检验 这 些 先 验 知识 。 这 种 方法 称 作 验 证 性 因子 分 析 (CFA )。 
CFA 是 结构 方程 模型 (SEM ) 中 的 一 种 方法 。SEM 不 仅 可 以 假定 潜在 因子 的 数目 以 及 组 成 ， 
还 能 假定 因子 间 的 影响 方式 。 你 可 以 将 SEM 看 做 是 验证 性 因子 分 析 (对 变量 ) 和 回归 分 析 (对 
子 ) 的 组 合 ， 它 的 结果 输出 包含 统计 检验 和 拟 合 度 的 指标 。R 中 有 几 个 可 做 CFA 和 SEM 的 非常 优 
秀 的 软件 包 ， 如 sem、openMx 和 lavaan。 

ltm 包 可 以 用 来 拟 合 测验 和 问卷 中 各 项 目的 潜 变 量 模型 。 该 方法 常用 来 创建 大 规模 标准 化 测 
试 ， 比 如 学 术 能 力 测验 ( SAT ) 和 美国 研究 生 入 学 考试 ( GRE )。 

潜 类 别 模型 ( 潜在 的 因子 被 认为 是 类 别 型 而 非 连 续 型 ) 可 通过 FlexMix、lcmm、randomLCA 
和 poLCA 包 进行 拟 合 。1cga 包 可 做 潜 类 别 判别 分 析 ， 而 1sa 可 做 潜在 语义 分 析 一 一 一 种 自然 语言 
处 理 中 的 方法 。 

ca 包 提 供 了 可 做 简单 和 多 重 对 应 分 析 的 函数 。 利用 这 些 函 数 , 可 以 分 别 在 二 维 列 联 表 和 多 维 
列 联 表 中 探索 类 别 型 变量 的 结构 。 

最 后 ，R 中 还 包含 了 众多 的 多 维 标 度 法 (MDS ) 计算 工具 。 所 谓 MDS ， 即 可 用 来 发 现 解释 相 
似 性 和 可 测 对 象 ( 如 国家 ) 间 距离 的 潜在 维度 。 基础 安装 中 的 cmdscale() 函数 可 做 经 典 的 MDS ， 
而 MASS 包 中 的 isoMDs () 函数 可 做 非 线性 MDS。vagan 包 则 包含 了 可 做 两 种 MDS 的 函数 。 













































































14.5 小结 


本 章 ， 我 们 主要 学 习 了 主 成 分 分 析 ( PCA ) 和 探索 性 因子 分 析 ( EFA ) 两 种 方法 。PCA 在 数 
据 降 维 方面 非常 有 用 ， 它 能 用 一 组 较 少 的 不 相关 变量 来 奉 代 大 量 相 关 变量 ， 进 而 简化 分 析 过 程 。 
EFA 包 含 很 多 方法 ， 可 用 来 发 现 一 组 可 观测 变量 背后 潜在 的 或 无 法 观测 的 结构 ( 因子 )。 

与 PCA 综 合 数据 和 降低 维度 的 目标 不 同 ，EFA 是 假设 生成 工具 ， 它 在 帮助 理解 众多 变量 间 的 
关系 时 非常 有 用 ， 常 用 于 社会 科学 的 理论 研究 。 

虽然 两 种 方法 表面 上 有 许多 相似 之 处 , 但 也 有 重要 的 差异 。 本 章 中 , 我 们 探究 了 这 两 种 方法 
的 模型 ， 学 习 了 判断 需 提 取 的 主 成 分 /因子 数 的 方法 、 提 取 主 成 分 /因子 和 通过 旋转 增强 解释 力 的 
方法 ,以 及 获得 主 成 分 /因子 得 分 的 技巧 。 图 14-7 总 结 了 PCA 和 EFA 的 分 析 步 又 。 在 本 章 最 后 ,我 
们 还 简单 介绍 了 R 中 其 他 可 用 的 潜 变 量 模型 。 
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选择 因子 模型 
















主 成 分 最 大 似 然 方法 
主轴 迭代 法 
加 权 最 小 二 乘法 
选择 成 分 /因子 数 








碎 石 检验 平行 分 析 
方差 贡献 量 


成 分 /因子 旋转 


图 14-7” 主 成 分 /探索 性 因子 分 析 的 分 析 步 又 图 
在 下 一 章 中 ,我们 将 学 习 理解 和 人 处理 缺 失 值 的 更 完善 的 方法 。 





























时 间 序 列 








本 章 内 容 

口 生成 时 间 序 列 
口 分 解 时 间 序 列 
口 建立 预测 模型 
口 预测 未 来 值 








全 球 变 暖 的 速度 有 多 快 ? 十 年 后 会 产生 什么 影响 ”除了 9.6 节 中 的 重复 测量 方差 分 析 外 ， 前 
面 各 章节 探讨 的 都 是 横 截 面 (cross-sectional ) 数据 。 在 横 截 面 数据 集中 , 我们 是 在 一 个 给 定 的 时 
间 点 测量 变量 值 。 与 之 相反 ， 纵 向 (longitudinal ) 数据 则 是 随 着 时 间 的 变化 反复 测量 变量 值 。 若 
持续 跟踪 某 一 现象 ， 可 能 会 获得 很 多 了 解 。 

本 章 , 我 们 将 研究 在 给 定 的 一 段 时 间 内 有 规律 地 记录 的 观测 值 。 对 于 这 样 的 观测 值 ， 我 们 可 
以 将 其 整合 成 形 如 了 力 , 六 ,…, .了 7 的 时 间 序 列 ， 其 中 了 为 7 在 时 间 点 1 的 值 ，7 是 时 间 序 列 中 观 
测 值 的 个 数 。 

图 15-1 中 是 两 个 完全 不 同 的 时 间 序 列 ( 简称 时 序 ), 左 边 的 序列 为 1960 ~ 1980 年 每 股 Johnson & 
Johnson 的 季度 收入 (单位 : 美元 )， 数据 集中 共有 84 个 观测 值 ， 即 观测 值 依次 对 应 21 年 间 的 每 个 
季度 ,右边 的 序列 为 1749 ~ 1983 年 瑞士 联邦 观测 台 和 东京 天 文 观测 台所 观测 到 的 月 均 相 对 太阳 
子 数 。 太 阳 黑 子 时 序 更 长 一 些 ， 共 有 2820 个 观测 值 ， 对 应 235 年 间 的 每 个 月 。 

对 时 序数 据 的 研究 包括 两 个 基本 问题 : 对 数据 的 描述 ( 这 段 时 间 内 发 生 了 什么 ) 以 及 预测 ( 接 
下 来 将 会 发 生 什 么 )。 对 于 Johnson & Johnson 数 据 ， 我 们 可 能 有 如 下 疑问 。 

口 Johnson & Johnson 股 价 在 这 段 时 间 内 有 变化 吗 ? 

口 数据 会 受到 季度 影响 吗 ? 股价 是 不 是 存在 某 种 固定 的 季度 变化 ? 

口 我 们 可 以 预测 未 来 的 股价 吗 ? 如 果 可 以 的 话 ， 准 确 率 有 多 高 ? 

对 于 太阳 黑子 数据 ， 我 们 可 能 有 如 下 疑问 。 

口 哪个 统计 模型 可 以 更 好 地 描述 太阳 黑子 的 活动 ? 

口 是 不 是 有 些 模型 可 以 更 好 地 拟 合 数据 ? 

口 在 一 个 给 定时 间 内 ， 太 阳 黑 子 的 数目 是 否 是 可 预测 的 ? 在 多 大 程度 上 可 预测 ? 

正确 预测 股价 的 能 力 关 系 到 我 能 和 否 早点 退休 去 一 个 热带 岛屿 , 而 预测 太阳 黑子 活动 的 能 力 则 
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关系 到 我 能 否 在 这 个 热带 岛屿 上 保持 手机 通信 畅通 。 


Johnson & Johnson 


10 





每 股 的 季度 收入 〈 美 元 ) 


1960 1970 
时 间 
(a) 











1980 


太阳 黑子 
© 
Die 
CN 
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© 
oq 
玉 
又 
有 8 
Lm] 
1750 1850 1950 
时 间 


(b) 





图 15-1 (a) 1960 ~ 1980 年 Johnson & Johnson 每 股 季 度 收 入 (美元 ) 的 时 序 图 ; 
(b) 1749 ~ 1983 年 月 均 相 对 太阳 黑子 数 的 时 序 图 


对 时 间 序 列 数据 未 来 值 进行 预测 是 基本 的 人 类 活动 , 对 时 序数 据 的 研究 在 现实 世界 中 也 有 着 
广泛 的 应 用 。 经 济 学 家 尝试 通过 时 序 分 析 理 解 并 预测 金融 市 场 ; 城市 规划 者 基于 时 序数 据 预 测 未 
来 的 交通 需求 ; 气候 学 家 通过 时 序数 据 预 测 全 球 气 候 变 化 ; 公司 需要 时 序 分 析 来 预测 产品 的 需求 
及 未 来 销量 ; 医疗 保健 人 员 需 要 根据 时 序数 据 研究 疾病 传播 范围 及 某 区 域内 可 能 出 现 的 病例 数 ; 









































地 震 学 家 通过 时 序数 据 预测 地 震 。 在 这 些 研 究 中 ,对 于 历史 时 间 序 列 的 分 析 都 是 必 不 可 少 的 。 





















































于 不 同类 型 的 时 间 序 列 数据 可 能 需要 不 同 的 方法 ， 本 章 将 研究 多 个 不 同 的 时 序数 据 集 。 
描述 时 序数 据 和 预测 未 来 值 的 方法 有 很 多 ， 而 R 软 件 具 备 很 多 其 他 软件 都 不 具备 的 精细 时 序 
分 析 工 具 。 本 章 将 介绍 一 些 最 常用 的 时 序数 据 描 述 和 预测 方法 以 及 对 应 的 R 函 数 。 表 15-1 按 在 本 





章 中 的 出 现 顺序 给 出 了 这 些 函 数 。 



















































































表 15-1 时 序 分 析 会 用 到 的 函数 
函数 程 序 包 用 途 
ts() stats 生成 时 序 对 象 
plot () graphics 画 出 时 间 序 列 的 折线 图 
start () stats 返回 时 间 序 列 的 开始 时 间 
end() stats 返回 时 间 序 列 的 结束 时 间 
frequency () stats 返回 时 间 序 列 中 时 间 点 的 个 数 
window () stats 对 时 序 对 象 取 子 集 
ma () forecast 以 合 一 个 简单 的 移动 平均 模型 
st1() stats 用 LOESS 光 滑 将 时 序 分 解 为 季节 项 、 趋 势 项 和 随机 项 
monthplot () stats 画 出 时 序 中 的 季节 项 
seasonplot () forecast 生成 季节 恬 
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( 续 ) 
函数 程序 包 用 途 
HoltWinters() stats 以 合 指 数 平滑 模型 
forecast () forecast 预测 时 序 的 未 来 值 
accuracy () forecast 返回 时 序 的 拟 合 优 度 度量 
etsl) Forecast 以 合 指数 平滑 模型 ， 同 时 也 可 以 自动 选取 最 优 模型 
lagt) BLES 返回 取 过 指定 滞后 项 后 的 时 序 
ACE(Y) forecast 占 计 自 相 关 函 数 
RacEt) forecast 估计 偏 自 相关 函数 
Ef() base 返回 取 过 沾 后 项 和 (或 ) 差分 后 的 序列 
ndiffs() Eorecast 找到 最 优 差分 次 数 以 移 除 序列 中 的 趋势 项 
aqf test () tseries 对 序列 做 ADF 检 验 以 判断 其 是 否 平稳 
arima () stats 拟 合 ARIMA 模 型 
Pow testt) stats 进行 Ljung-Box 检 验 以 判断 模型 的 残 差 是 否 独立 
bds.test () tseries 进行 BDS 检 验 以 判断 序列 中 的 随机 变量 是 否 服从 独立 同 分 布 
auto.arima () forecast 自动 选择 ARIMA 模 型 
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表 15-2 给 出 了 我 们 将 分 析 的 几 个 时 序数 据 集 , 这 些 数据 集 在 R 中 都 可 以 找到 , 它们 各 有 特点 ， 
适用 的 模型 也 各 不 相同 。 








表 15-2 ”本 章 用 到 的 数据 集 

















时 间 序列 描述 
AirPpassengers 1949 ~ 1960 年 每 个 月 乘坐 飞机 的 乘客 数 
JohnsonJohnson 每 股 Johnson & Johnson 股 份 每 季度 的 收入 
nhtemp 康涅狄格 州 纽 黑 文 地 区 从 1912 年 至 1971 年 每 年 的 平均 气温 
Nile 尼罗河 的 流量 
sunspots 1749 ~ 1983 年 每 月 太阳 黑子 的 数量 





本 章 首 先 介 绍 生成 、 操 作 时 序数 据 的 方法 ， 对 它们 进行 描述 并 画图 , 将 它们 分 解 成 水 平 、 趋 
势 、 季 节 性 和 随机 (误差 ) 等 四 个 不 同 部 分 。 在 此 基础 上 ， 我们 和 采用 不 同 的 统计 模型 对 其 进行 预 
测 。 将 要 介绍 的 方法 包括 基于 加 权 平 均 的 指数 模型 ,以 及 基于 附近 数据 点 和 预测 误差 间 关 联 的 自 
回归 积分 移动 平均 ( ARIMA ) 模型 。 我 们 还 将 介绍 模型 拟 合 和 预测 准确 性 的 评价 指标 。 最 后 ， 
本 章 将 给 出 关于 时 间 序 列 的 更 多 参考 书目 ， 以 便 读 考 继 续 学 习 。 


15.1 在 R 中 生成 时 序 对 象 


在 R 中 分 析 时 间 序 列 的 前 提 是 我 们 将 分 析 对 象 转 成 时 间 序 列 对 象 (time-series object )， 即 R 中 
一 种 包括 观测 值 、 起 始 时 间 、 终 止 时 间 以 及 周期 ( 如 月 、 季 度 或 年 ) 的 结构 。 只 有 将 数据 转 成 时 
间 序 列 对 象 后 ， 我 们 才能 用 各 种 时 序 方法 对 其 进行 分 析 、 建 模 和 绘图 。 
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一 个 数值 型 向 量 或 数据 框 中 的 一 列 可 通过 ts () 函数 存储 为 时 序 对 象 : 
myseries <- ts(data, start=, end=, frequency=) 
其 中 myseries 是 所 生成 的 时 序 对 象 ，data 是 原始 的 包含 观测 值 的 数值 型 向 量 ，start 参 数 和 


engd 参 数 ( 可 选 ) 给 出 时 序 的 起 始 时 间 和 终止 时 间 ，frequency 为 每 个 单位 时 间 所 包含 的 观测 
值 数量 ( 如 frequency=1 对 应 年 度数 据 ，frequency=12 对 应 月 度数 据 ，frequency=4 对 应 季 


度数 








据 )。 
代码 清单 15-1 给 出 了 一 个 示例 。 数 据 中 包含 从 2003 年 1 月 开始 ， 两 年 内 的 月 度 销量 数据 。 





代码 清单 15-1 ”生成 时 序 对 象 


示 在 
比如 
象 后 


> LES SSCL 335. dl VM 34n BD 2 D724 Dl DHT ZO 
FS) 


> tsales <- ts(sales, start=c(2003, 1), frequency=12) 
> tsales 生成 时 序 
@ 对 象 

Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 
2003” ZL82 - 33 -下 二 7 本 85 2 这 5 24 人 DL， 这 5 芝 20 
2004 ‘22 31 ‘40° 29 25 21 ‘22 54 31 25 26 35 
> plot (tsales) 
> start (tsales) 获得 这 个 对 

象 的 信息 
[1] 2003 小 
> end(tsales) 
[1] 2004 12 
> frequency (tsales) 
对 对 象 取 子 集 


E12 


> tsales.subset <- window(tsales, start=c(2003, 5), end=c(2004, 6)) 
> tsales.subset 


Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 
2003 34 35 24 25 24 21 25 20 
2004 22 31 40 29 25 21 


在 代码 清单 中 ，ts () 子 数 被 用 于 生成 时 序 对 象 @Q。 生 成 后 ， 我 们 可 以 将 它 以 图 像 的 形式 显 
屏幕 上 ， 图 15-2 为 时 序数 据 对 应 的 图 像 。 我 们 可 以 用 第 3 章 中 介绍 的 方法 将 图 像 变 得 更 精炼 ， 
通过 plot (tsales，type="0"，pch=19) 可 以 将 线条 变 为 连接 起 来 的 实心 点 。 生 成 时 序 对 
, 我 们 可 以 通过 start () 、end () 、frequency () 函数 查看 其 性 质 @, 也 可 以 通过 windqow () 
生成 原始 数据 的 一 个 子 时 序 合 。 
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tsales 
3 


2003.0 2003.5 2004.0 2004.5 
Time 
图 15-2 ”由 代码 清单 15-1 生 成 的 销量 数据 的 时 序 图 。 时 间 轴 中 的 小 数 点 用 来 表示 一 年 
中 的 某 个 位 置 ， 比 如 2003.5 表 示 2003 年 7 月 1 日 ( 即 2003 年 全 年 的 一 半 ) 
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正如 对 横 截 面 数据 集 分 析 与 建 模 的 第 一 步 是 描述 性 统计 和 画图 一 样 , 对 时 序数 据 建立 复杂 模 
型 之 前 也 需要 对 其 进行 描述 和 可 视 化。 在 本 节 中 ， 我们 将 对 时 序 进 行 平 消化 以 探究 其 总 体 趋势 ， 
并 对 其 进行 分 解 以 观察 时 序 中 是 否 存在 季节 性 因素 。 


15.2.1 通过 简单 移动 平均 进行 平滑 处 理 


处 理 时 序数 据 的 第 一 步 是 画图 (如 代码 清单 15-1 )。 这 里 介绍 Nile 数 据 集 。 这 一 数据 集 是 埃 
及 阿 斯 旺 市 在 1871 年 至 1970 年 间 所 记录 的 尼罗河 的 年 度 流 量 , 图 15-3 ( 左上 ) 画 出 了 这 一 数据 集 。 
从 图 15-3 来 看 ， 数 据 总 体 呈 下 降 趋势 ， 但 不 同年 份 的 变动 非常 大 。 

时 序数 据 集 中 通常 有 很 显著 的 随机 或 误差 成 分 。 为 了 辨 明 数 据 中 的 规律 , 我 们 总 是 希望 能 够 
搬 开 这 些 波动 , 画 出 一 条 平滑 曲线 。 画 出 平滑 曲线 的 最 简单 办 法 是 简单 移动 平均 。 比 如 每 个 数据 
点 都 可 用 这 一 点 和 其 前 后 两 个 点 的 平均 值 来 表示 ， 这 就 是 居中 移动 平均 ( centered moving 
average )， 它 的 数学 表达 是 : 










































































S,=(Y ++Y ++Y,,)/(29+1) 


其 中 $ 是 时 间 点 /的 平滑 值 , 厂 2g+1 是 每 次 用 来 平均 的 观测 值 的 个 数 , 一 般 我 们 会 将 其 设 为 一 个 奇数 
(本 例 中 为 3 )。 居 中 移动 平均 法 的 代价 是 ， 每 个 时 序 集 中 我 们 会 损失 最 后 的 (£1)2 个 观测 值 。 

R 中 有 几 个 函数 都 可 以 做 简单 移动 平均 ,包括 TTR 包 中 的 SMA () 函数 ,zoo 包 中 的 rollmean () 
函数 ,forecast 包 中 的 ma () 函数 。 这 里 我 们 用 R 中 自 带 的 ma () 函数 来 对 Nile 时 序数 据 进行 平滑 
处 理 。 
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代码 清单 15-2 中 的 代码 给 出 了 时 序数 据 的 原始 数据 图 ， 以 及 平滑 后 的 图 ( 对 应 太 3、7 和 15 )， 
生成 的 图 像 见 图 15-3。 


代码 清单 15-2 ”简单 移动 平均 
library (forecast) 
opar <- par(no.readonly=TRUE) 
par (mfrow=c (2,2)) 
ylim <- c(min(Nile), max(Nile)) 
plot (Nile, main="Raw time series") 


( 
plot (ma (Nile, 3), main="Simple Moving Averages (k=3)", ylim=ylim) 
plot (ma (Nile, 7), main="Simple Moving Averages (kK=7)", ylim=ylim) 
plot (ma (Nile, 15), main="Simple Moving Averages (k=15)", ylim=ylim) 
par (opar) 


Raw time series Simple Moving Averages (k=3) 
8 8 
> 
Czy 
by 7 
2 8 3 8 
2 所 
和 
© La 
ped ped 
OO © 
1880 1920 1960 1880 1920 1960 
Time Time 
Simple Moving Averages (k=7) Simple Moving Averages (k=15) 
8 8 
= = 
[my 
8 gs 8 
Ei es 
和 E 
by bd 
人 be 
OO ea 
1880 1920 1960 1880 1920 1960 
Time Time 











图 15-3 1871 ~ 1970 年 阿 斯 旺 水 站 观测 到 的 尼罗河 的 年 度 流 量 ( 左 上 ) ， 其 余 三 幅 图 
对 应 简单 移动 平均 在 不 同 光滑 水 平 上 (村 3、7 和 15 ) 做 过 光滑 处 理 后 的 序列 


从 图 像 来 看 ， 随 着 /的 增 大 ， 图 像 变 得 越 来 越 平 滑 。 因 此 我 们 需要 找到 最 能 画 出 数据 中 规律 
的 上 ， 避 免 过 平滑 或 者 欠 平 滑 。 这 里 并 没有 什么 特别 的 科学 理论 来 指导 X 的 选取 , 我们 只 是 需要 先 
尝试 多 个 不 同 的 x， 再 决定 一 个 最 好 的 £。 从 本 例 的 图 像 来 看 ， 尼罗河 的 流量 从 1892 年 到 1900 年 有 
明显 下 降 ; 其 他 的 变动 则 并 不 是 太 好 解读 ， 比 如 1941 年 到 1961 年 水 量 似乎 略 有 上 升 , 但 这 也 可 能 
只 是 一 个 随机 波动 。 

对 于 间隔 大 于 1 的 时 序数 据 〈 即 存在 季节 性 因子 )， 我 们 需要 了 解 的 就 不 仅仅 是 总 体 趋势 了 。 
此 时 ， 我 们 需要 通过 季节 性 分 解 帮助 我 们 探究 季节 性 波动 以 及 总 体 趋势 。 
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15.2.2 ”季节 性 分 解 


存在 季节 性 因素 的 时 间 序 列 数据 


( 如 月 度数 据 、 季 度数 据 等 ) 可 以 被 分 解 为 趋势 因子 、 季 闻 











性 因子 和 随机 因子 。 趋 势 因 子 〈trend component ) 能 捕捉 到 长 期 变化 ; 季节 性 因子 〈seasonal 


component ) 能 捕捉 到 一 年 内 的 周期 牧 


台 b 
用 



































变化 ; 而 随机 ( 误差 ) 因子 〈irregularerror component ) 则 














有 提 到 那些 不 能 被 趋势 或 季 广 效应 














此 时 ， 可 以 通过 相 加 模型 ， 也 可 以 通过 相 乘 模型 来 分 解数 据 。 在 相 加 模型 中 ,各 种 因子 之 和 


应 等 于 对 应 的 时 序 值 ， 即 : 





Y 


解释 的 变化 。 














Y =T7rend, +Seasonal, + Irregular, 


而 相 乘 模型 则 将 时 间 序 列表 示 为 


中 时 刻 的 观测 值 即 这 一 时 刻 的 趋势 值 、 季 节 效 应 以 及 随机 影响 之 和 。 


了 = Trend, x Seasonal, x Irregular, 


即 趋势 项 、 季 节 项 和 随机 影响 相 乘 。 





图 15-4 给 出 了 对 应 的 实例 。 











(a) 平稳 (b) 相 加 趋势 项 与 随机 影响 
3 
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昌 8 
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2000 2002 2004 2006 2008 2010 2000 2002 2004 2006 2008 2010 
时 间 时 间 
(c) 相 加 季节 项 与 随机 影响 (d) 相 加 趋势 项 、 季 节 项 与 随机 影响 
8 
~ 
> 8 > 3 
3 8 
oy 
2000 2002 2004 2006 2008 2010 2000 2002 2004 2006 2008 2010 
时 间 时 间 


(e) 相 乘 趋势 项 、 季 节 项 与 随机 影响 


600 1000 


2000 2002 2004 2006 


时 间 


2008 2010 





图 15-4 ”由 不 同 的 趋 热 项、 季节 项 和 随机 项 组 合 的 时 间 序 列 
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图 (a) 中 的 序列 没有 趋势 项 也 没有 季节 项 ， 序 列 中 的 波动 都 表现 为 一 个 给 定 水 平 上 的 随机 波 
动 。 图 (b) 的 序列 中 有 一 个 向 上 的 趋势 ， 以 及 围绕 这 个 趋势 的 一 些 随 机 波动 。 图 (ce) 的 序列 中 有 季 
节 效 应 和 随机 波动 , 但 并 没有 表现 出 某 种 趋势 。 图 (d) 的 序列 中 则 同时 出 现 了 增长 性 趋势 、 季 节 效 
应 以 及 随机 波动 。 图 (e) 的 序列 也 同时 出 现 了 这 三 种 因子 , 但 此 时 时 间 序 列 通过 相 乘 模型 分 解 。 注 
意 (e) 中 序列 的 波动 是 与 趋势 成 正比 的 , 即 整体 增长 时 波动 越 大 。 这 种 基于 现 有 水 平 的 放大 (或 者 
缩减 ) 决定 了 相 乘 模型 更 适合 这 类 情况 。 

这 里 通过 一 个 小 例子 进一步 说 明 相 加 模型 与 相 乘 模型 的 区 别 。 假 设 我 们 有 一 个 时 序 , 记录 了 
10 年 来 摩托 车 的 月 销量 。 在 可 加 模型 中 , 11 月 和 12 月 (圣诞 节 ) 的 销量 一 般 会 增加 500, 而 1 月 (一 
般 是 销售 淡季 ) 的 销量 则 会 减少 200。 此 时 季节 性 的 波动 量 和 当时 的 销量 无 关 。 在 相 乘 模型 中 ， 
11 月 和 12 月 的 销量 则 会 增加 20%, 1 月 的 销量 减少 10%, 即 季节 性 的 波动 量 和 当时 的 销量 是 成 比例 
的 。 这 也 使 得 在 很 多 时 候 ， 相 乘 模型 比 相 加 模型 更 现实 一 些 。 

将 时 序 分 解 为 趋势 项 、 季 节 项 和 随机 项 的 常用 方法 是 用 LOESS 光 滑 做 季节 性 分 解 。 这 可 以 通 
过 R 中 的 st1 () 图 数 实现 : 

stl(ts, s.window=, t.window=) 
其 中 ts 是 将 要 分 解 的 时 序 ， 参 数 s .winaow 控 制 季节 效应 变化 的 速度 ，t .winaow 控 制 趋势 项 变 
化 的 速度 。 较 小 的 值 意 味 着 更 快 的 变化 速度 。 令 s .windows="periodic" 可 使 得 季节 效应 在 各 
年 间 都 一 样 。 这 一 本 数 中 ， 人 参数 ts 和 s .windows 是 必须 提供 的 。 我 们 可 以 通过 help (st1) 看 到 
更 多 关于 stl () 函数 的 细节 。 

虽然 stl () 函数 只 能 处 理 相 加 模型 ， 但 这 也 不 算 一 个 多 严重 的 限制 ， 因 为 相 乘 模型 总 可 以 通 
过 对 数 变 换 转 换 成 相 加 模型 : 


1og(Yt) = log(Trendt * Seasonalt * Irregulart) 
= log(Trendt+t) + log(Seasonalt) + log(Irregulart) 


用 经 过 对 数 变 换 的 序列 拟 合 出 的 相 加 模型 也 总 可 以 再 转化 回 原始 尺度 。 下 面 给 出 一 个 例子 。 

R 中 自 带 的 AirPassengers 序 列 描述 了 1949 ~ 1960 年 每 个 月 国际 航班 的 乘客 (单位 : 千 )。 
序列 图 见 图 15-5 的 上 图 。 从 图 像 来 看 ， 序 列 的 波动 随 着 整体 水 平 的 增长 而 增长 ， 即 相 乘 模型 更 适 
合 这 个 序列 。 

图 15-5 中 的 第 二 幅 图 是 经 过 对 数 变换 后 的 序列 。 这 样 序列 的 波动 就 稳定 了 下 来 ， 对 数 变 换 后 
的 序列 就 可 以 用 相 加 模型 来 拟 合 了 。 具 体 过 程 见 代码 清单 15-3。 
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图 15-5 ”Airpassengers 时 间 序 列 的 折线 图 (上 图 ) ， 这 一 时 间 序 列表 示 的 是 
1949 ~ 1960 年 每 个 月 国际 航班 的 乘客 数 (单位 : 千 ) 。 下 图 对 原始 序列 取 了 对 
数 变换 ， 使 得 序列 的 方差 稳定 下 来 ， 从 而 可 以 对 其 拟 合 一 个 可 加 性 季节 模型 





























代码 清单 15-3 用 stl() 子 数 做 季节 性 分 解 


> plot (AirPassengers) 
> lAirPassengers <- log(AirPassengers) -_ 画 出 时 间 序列 
> plot (lAirPassengers, ylab="log (AirPpassengers)") 
> fit <- stl(lAirPassengers, s.window="period") 
> “plot(fit) 6 分 解 时 间 序 列 
> fits$time.series “ 每 个 观测 值 各 

分 解 项 的 值 


seasonal trend remainder 
Jan 1949 -0.09164 4.829 -0.0192494 
Feb 1949 -0.11403 4.830 0.0543448 
Mar 1949 0.01587 4.831 0.0355884 
Apr 1949 -0.01403 4.833 0.0404633 
May 1949 -0.01502 4.835 -0.0245905 
Jun 1949 0.10979 4.838 -0.0426814 
Jul 1949 0.21640 .0601152 
Aug 1949 0.20961 4.843 -0.0558625 
Sep 1949 0.06747 4.846 -0.0008274 
Oct 1949 -0.07025 4.851 -0.0015113 
NOV -L1949 =0..21353 .485.6 “0:i002163L 
Dec 1949 -0.10064 4.865 0.0067347 

output omitted 
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> exp (fits$time.series) 


seasonal trend remainder 


Jan 1949 0.9124 125.1 
Feb 1949 O8922 2553 
Mar 1949 1.0160 125.4 
Apr 1949 O09861 12576 
May 1949 O0985T, L225%9 
Jun 1949 T1160" L262 
Jul 1949 1.2416 126.6 
Aug 1949 .2.3.32 L269 
Sep 1949 L0698. 2 和 2 
Oct 949 O9322 2 
Nov 1949 O80 L285 
Dec 1949 0.9043 129.6 








. Output omitted ... 


我 们 首先 画 出 序列 ， 并 对 其 进行 对 数 变换 @@。 然 后 对 其 进行 季节 性 分 解 ， 将 


0 


1 
1 
a 
0 
0 
Qs 
0 
0 
0 
1 
于 


9809 
.0558 
.0362 
.0413 
“39757 
-9582 
9417 
9457 
9992 
19985 
.0022 
.0068 


中 @。 图 15-6 给 出 了 1949 ~ 1960 年 的 时 序 


应 表明 夏季 乘客 数量 更 多 ( 可 能 因为 假 


























结果 存储 在 fit 


图 、 季 节 效 应 图 、 趋 势 图 以 及 随机 波动 项 。 注 意 此 时 将 
季节 效应 限定 为 每 年 都 一 样 ( 即 设 定 s .window="periog" )。 序 列 的 趋势 为 单调 增长 ， 季 节 效 














色 长 条 来 指示 量 级 ， 即 每 个 长 条 代表 的 量 级 一 样 。 
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期 )。 每 个 图 的 y 轴 尺度 不 同 ， 因 此 我 们 通过 图 中 右 侧 的 灰 





图 15-6 ”使 用 st1 () 函数 对 对 数 变 换 后 的 AizrPassengers 时 序 进 行 季节 性 分 解 。 时 序 
(数据 ) 被 分 解 为 季节 效应 





图 、 趋 势 图 以 及 随机 波动 项 
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stl() 函数 返回 的 对 象 中 有 一 项 是 time.series, 它 包 括 每 个 观测 值 中 的 趋势 、 季 节 以 及 随 
机 效应 的 具体 组 成 人 @。 此 时 ， 直 接 用 fitstime.series 则 返回 对 数 变换 后 的 时 序 ， 而 通过 
exp (fits$stime.series) 可 将 结果 转化 为 原始 尺度 。 观察 季节 效应 可 发 现 ， 7 月 的 乘客 数 增长 了 
24%( 即 乘 子 为 1.24 )， 而 11 月 的 乘客 数 减少 了 20% ( 即 乘 子 为 0.8 )。 

我 们 还 可 以 通过 两 幅 图 来 对 季节 分 解 进行 可 视 化 ， 即 用 R 中 自 带 的 monthplot () 函数 和 
forecast 包 中 的 seasonplot () 困 数 来 画图 : 

par (mfrow=c (2,1)) 

library (forecast) 


monthplot (AirPassengers, xlab="", ylab="") 
seasonplot (AirPassengers, year.labels="TRUE", main="") 


这 样 我 们 可 得 到 图 15-7。 
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图 15-7 AirPassengers 序 列 的 月 度 图 ( 上 ) 和 季度 图 (下 ) ， 从 两 幅 图 中 都 可 以 
看 出 总 体 的 增长 趋势 以 及 相似 的 季节 模式 


图 15-7 中 的 第 一 幅 图 是 月 度 图 ， 表 示 的 是 每 个 月 份 组 成 的 子 序列 ( 连接 所 有 1 月 的 点 、 连 接 
所 有 2 月 的 点 ， 以 此 类 推 ), 以 及 每 个 子 序列 的 平均 值 。 从 这 幅 图 来 看 ,每 个 月 的 增长 趋势 几乎 是 
一 致 的 。 另 外 , 我 们 还 可 以 看 到 7 月 和 8 月 的 乘客 数量 最 多 。 图 15-7 中 的 第 二 幅 图 是 季节 图 ( season 
plot )， 这 幅 图 以 年 份 为 子 序列 。 从 这 幅 图 中 我 们 也 可 以 观测 到 同样 的 趋势 性 和 季节 效应 。 

到 此 为 止 , 我 们 已 经 对 时 间 序 列 做 了 很 多 描述 , 但 还 没有 对 其 进行 预测 。 在 下 一 节 中 , 我们 
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于 指数 模型 对 数据 进行 预测 。 
15.3 ”指数 预测 模型 


指数 模型 是 用 来 预测 时 序 未 来 值 的 最 常用 模型 。 这 类 模型 相对 比较 简单 , 但 是 实践 证 明 它们 
的 短期 预测 能 力 较 好 。 不 同 指数 模型 建 模 时 选用 的 因子 可 能 不 同 。 比 如 单 指数 模型 ( simple/single 
exponential model ) 拟 合 的 是 只 有 常数 水 平 项 和 时 间 点 ;处 随机 项 的 时 间 序 列 ， 这 时 认为 时 间 序 列 
不 存在 趋势 项 和 季节 效应 ; 双 指 数 模型 ( double exponential model; 也 叫 Holt 指 数 平 滑 ，Holt 
exponential smoothing ) 拟 合 的 是 有 水 平 项 和 趋势 项 的 时 序 ; 三 指数 模型 (triple exponential model; 
也 叫 Holt-Winters 指 数 平 消 ，Holt-Winters exponential smoothing ) 拟 合 的 是 有 水 平 项 、 趋 势 项 以 及 
季节 效应 的 时 序 。 

R 中 自 带 的 Holtwinters () 图 数 或 者 forecast 包 中 的 ets () 函数 可 以 拟 合 指数 模型 。ets () 
函数 的 备 选 参数 更 多 ， 因 此 更 实用 。 本 节 中 我 们 只 讨论 sts () 函数 。 

ets () 困 数 如 下 : 


ets(ts, model="ZZ2Z") 






















































































其 中 ts 是 要 分 析 的 时 序 , 限定 模型 的 字母 有 三 个 。 第 一 个 字母 代表 误差 项 , 第 二 个 字母 代表 趋势 
项 ， 第 三 个 字母 则 代表 季节 项 。 可 选 的 字母 包括 : 相 加 模型 ( A )、 相 乘 模型 (M) 无 (CN)、 自 
动 选 择 ( z )。 表 15-3 中 列 出 了 常用 的 模型 。 








表 15-3 ”用 于 拟 合 三 种 指数 模型 的 函数 











类 型 参 数 函 数 

单 指数 水 平 项 ets(ts, model="ANN") 
ses (ts) 

双 指 数 水 平 项 、 斜率 ets(ts, model="AAN") 
holt (ts) 

三 指数 水 平 项 、 和 斜率 、 季 节 项 ets(ts, model="AAA") 
hw(ts) 


ses () 、holt () 、 和 nw () 函数 都 是 sts () 函数 的 便捷 包装 ( convenience wrapper )， 子 数 中 
有 事先 默认 设 定 的 参数 值 。 
首先 我 们 讨论 最 基础 的 指数 模型 ， 也 即 单 指数 平滑 。 在 此 之 前 ， 请 先 确 保 你 的 电脑 已 安装 


forecast 包 ( install.packages("forecast") )。 
15.3.1 单 指数 平滑 


单 指数 平滑 根据 现 有 的 时 序 值 的 加 权 平 均 对 未 来 值 做 短期 预测 , 其 中 权 数 选择 的 宗旨 是 使 得 
距离 现在 越 远 的 观测 值 对 平均 数 的 影响 越 小 。 
单 指数 平滑 模型 假定 时 序 中 的 观测 值 可 被 表示 为 : 


了 = level +irregular, 
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在 时 间 点 "1 的 预测 值 ( 一 步 向 前 预测 ，1-step ahead forecast ) 可 写作 
也 


其 中 c =cwd-a) ， i=0,1,2,… 并 且 0<a<1。 权 数 c 的 总 和 为 1， 则 一 步 向 前 预测 可 看 作 当 前 值 和 
全 部 历史 值 的 加 权 平 均 。 式 中 a 参数 控制 权 数 下 降 的 速度 ，o 越 接近 于 1， 则 近期 观测 值 的 权重 越 
大 ; 反之 ，a 越 接近 于 0， 则 历史 观测 值 的 权重 越 大 。 为 最 优化 某 种 拟 合 标准 ，a 的 实际 值 一 般 由 
计算 机 选择 ， 常 见 的 拟 合 标准 是 真实 值 和 预测 值 之 间 的 残 差 平方 和 。 下 文 将 给 出 一 个 具体 例子 。 

nhtemp 时 序 中 有 康涅狄格 州 纽 黑 文 市 从 1912 年 到 1971 年 每 一 年 的 平均 华氏 温度 ,图 15-8 给 出 
了 时 序 的 折线 图 。 
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图 15-8 ”康涅狄格 州 纽 黑 文 地 区 的 年 平均 气温 ， 以 及 ets () 函数 拟 合 的 单 指数 模型 所 
得 到 的 一 步 向 前 预测 


从 图 15-8 可 以 看 到 ， 时 序 中 不 存在 某 种 明显 的 趋势 ， 而 且 无 法 从 年 度数 据 看 出 季节 性 因素 ， 
因此 我 们 可 以 先 选 择 拟 合 一 个 单 指数 模型 。 代 码 清 单 15-4 中 给 出 了 用 ses () 函数 做 一 步 向 前 预测 
的 代码 。 


代码 清单 15-4 单 指数 平滑 














> library (forecast) 


> fit <- ets(nhtemp, model="ANN") 
SE 0 拟 合 模型 
ETS (A, N,N) 
Call: 
ets(y = nhtemp, model = "ANN") 


Smoothing parameters: 
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alblie, "0%L82 


Initial states: 


1 0 2759 
sigma: 1.126 
AIC ATICC BIC 


0 6 6 
本 一 步 向 前 预测 


Point Forecast Lo 80 Hi 80 Lo 95 Hi 95 
51.87 50.43 53.31 49.66 54.08 


> forecast (fit, 1) 


1972 


> plot (forecast (fit, 1), xlab="Year", 
ylab=expression(paste("Temperature (", degree*F,")" 
main="New Haven Annual Mean Temperature") 
> accuracy (fit) < 


MPE MAPE MASE 
0.2419 1.749 0.9228 


ME RMSE MAE 
Training set 0.146 1.126 0.8951 





仿 得 


，) ) ， 


到 准确 性 度量 


@ 中 的 ets (mogde="ANN' ) 语 句 对 nhtemp 时 序 拟 合 单 指数 模型 ， 其 中 A 表示 可 加 误差 ，NN 表 








示 时 序 中 不 存在 趋势 项 和 季节 项 。a 值 
远 的 观测 值 ， 这 样 的 a 值 可 以 最 优化 模型 在 给 定数 据 集 上 的 拟 合 效果 。 
forecast () 限 数 用 于 预测 时 序 未 来 的 f 步 ， 其 形式 为 forecast ( 
步 向 前 预测 的 结果 是 51.9*F， 其 95% 的 置信 区 间 为 49.7°F 到 54.1°F@O。 
测 值 以 及 80% 和 95% 的 置信 区 间 全 。 
forecast 包 同时 提供 了 accuracy () 国 数 , 展示 了 时 序 预测 中 最 
15-4 中 

















表 15-4 ”预测 准确 性 度量 


比较 小 (a=0.18 ) 说 明 预 测 时 同时 考虑 了 离 现在 较 近 和 较 





fit,，k)。 这 一 数据 集中 一 
图 15-8 中 给 出 了 时 序 值 、 预 





主流 的 几 个 准确 性 度量 。 表 





给 出 了 这 几 个 度量 的 描述 。e/ 代 表 第 /个 观测 值 的 误差 项 ( 随机 项 ), 即 (Y -了 )。 




















度量 标准 简 写 定义 
平均 误差 ME mean(e;) 
平均 残 差 平方 和 的 平方 根 RMSE sqrt(mean( e? )) 
平均 绝对 误差 MAE mean (|e, |) 
平均 百分比 误差 MPE mean(100x e/Y) 
平均 绝对 百 分 误差 MAPE mean(|100xe /了 |) 
平均 绝对 标准 化 误差 MASE mean(14 1)， 其 中 和 =6@ 1077 一 Dxswm(|y 一族) ，7 是 观测 值 

















的 个 数 ， 对 坟 2 到 拓 7 求 标 加 


一 般 来 说 ， 平 均 误差 和 平均 百分比 误差 用 处 不 大 ， 因 为 正 向 和 负 





向 的 误差 会 抵消 掉 。RMSE 





给 出 了 平均 误差 平方 和 的 平方 根 ， 本 例 中 即 1.13°F。 平均 绝对 百 分 误 差 给 出 了 误差 在 真实 值 中 的 
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占 比 , 它 没有 单位 ,因此 可 以 用 于 比较 不 同时 序 间 的 预测 准确 性 ; 但 它 同时 假定 测量 尺度 中 存在 
一 个 真实 为 零 的 点 〈 比如 每 天 的 游客 数量 )， 但 华氏 温度 中 并 没有 一 个 真实 为 零 ( 即 不 存在 分 子 
运动 动能 ) 的 点 ， 因 此 这 里 不 能 用 这 个 统计 量 。 平 均 绝对 标准 化 误差 是 最 新 的 一 种 准确 度 测量 ， 
通常 用 于 比较 不 同 尺度 的 时 序 间 的 预测 准确 性 。 这儿 种 预测 准确 性 度量 中 , 并 不 存在 某 种 最 优 度 
量 ， 不 过 RMSE 相 对 最 有 名 、 最 常用 。 

单 指数 平滑 假定 时 序 中 缺少 趋势 项 和 季节 项 ， 下 节 介 绍 的 指数 模型 则 可 兼容 这 些 情 况 。 





















































15.3.2 ”Holt 指数 平滑 和 Holt-Winters 指数 平滑 
Holt 指 数 平滑 可 以 对 有 水 平 项 和 趋势 项 (斜率 ) 的 时 序 进行 拟 合 。 时 刻 z 的 观测 值 可 表示 为 : 


也 =/level+ slopext+irregular, 
平滑 参数 a ( alpha ) 控制 水 平 项 的 指数 型 下 降 ，beta 控 制 斜 率 的 指数 型 下 降 。 同 样 ， 两 个 参 
数 的 有 效 范围 都 是 [0,1]， 参 数 取 值 越 大 意味 着 越 近 的 观测 值 的 权重 越 大 。 
Holt-Winters 指 数 光 滑 可 用 来 拟 合 有 水 平 项 、 趋 势 项 以 及 季节 项 的 时 间 序 列 。 此 时 ， 模 型 可 
表示 为 : 


























¥ =/level+slopext+s, +irregular, 
其 中 s, 代 表 时 刻 t 的 季节 效应 。 除 alpha 和 beta 参 数 外 ，gamma 光 滑 参 数控 制 季 节 项 的 指数 下 降 。 
gamma 人 参数 的 取 值 范围 同样 是 [0,1] ，gamma 值 越 大 ， 意 味 着 越 近 的 观测 值 的 季节 效应 权重 越 大 。 
在 15.2 节 中 ， 我 们 对 一 个 描述 每 月 国际 航线 乘客 数 (对 数 形式 ) 的 时 序 进 行 分 解 ， 得 到 一 个 
可 加 的 趋势 、 季 节 项 和 随机 项 。 这 里 我 们 用 指数 模型 预测 未 来 的 乘客 量 。 类 似 地 ,我 们 需要 对 原 
始 数据 取 对 数 ， 使 得 它 满足 可 加 模型 。 这 里 我 们 用 Holt-Winters 指 数 光 滑 来 预测 AirPassengers 
时 序 中 接 下 来 的 五 个 值 。 


代码 清单 15-5 ”有 水 平 项 、 斜 率 以 及 季节 项 的 指数 模型 
> library (forecast) 
> fit <- ets(log(AirPassengers), model="AAA") 
































四 

ETS (A, A,A) 

Calls 

ets(ly = log(AirPassengers), model = "AAA") 

Smoothing parameters: 

alpha = 0.8528 6 光滑 参数 
beta = 4e-04 
gamma = 0.0121 


Initial states: 
1 = 4.8362 
Be 00097 
S013 0 2251, 0..0756 ,0.0623 :0.2079 .0.2222 
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sigma: 


AEG 
-=O 99456%3 


0.1235 -0.009 0 0.0203 -0.,.1203 -0%0925 


0.0367 


NE 


>accuracy (fit) 


BIC 


ME 


Training set -0.0003695 


> pred <- forecast (fit, 5) 
> pred 

Point Forecast Lo 80 Hi 80 Lo 95 Hi 95 
Jan 1961 6.101 6.054 6.148 6.029 6.173 
Feb 1961 GH084 68022.6, .146.5 79089. "6% L719 
Mar 1961 G233 6.1990.65307 Gr120, 6.346 
Apr 1961 65222.. 6711138 65306. ,650.936.7350 
May 1961 GDS G3 O38 00 8060367 
> plot (pred, main="Forecast for Air Travel", 

ylab="Log (AirPassengers)", xlab="Time") 

> pred$smean <- exp (predsmean) 
> pred$lower <- exp (preds$slower) 
> pred$upper <- exp (preds$supper) 
> p <- cbind(predsmean, pred$slower, pred$upper) 
> dimames (p) [[2]] <- c("mean", "Lo 80", "Lo 95", 
> 卫 

mean Lo 80 Lo 95 Hi 80 Hi 95 
Jan 1961 446.3 425.8 415.3 467.8 479.6 
Feb 1961 438.8 412.5 399.2 466.8 482.3 
Mar 1961 509.2 473.0 454.9 548.2 570.0 
Apr 1961 503.6 463.0 442.9 547.7 572.6 
May 1961 50530 :460%,1 :43759 55453 582.53 


RMS 


E 


MAE 
0.03672 0.02835 -0.007882 0.5206 0.07532 


MPE 


MAPE MASE 





"Hi 80" 5 


0 未 来 值 预测 


1 用 原始 尺度 预测 


1 992 


@ 给 出 了 三 个 光滑 参数 ， 即 水 平 项 0.82、 趋 势 项 0.0004、 季 市 项 0.012。 趋 势 项 的 参数 小 意味 
着 近期 观测 值 的 斜率 不 需要 更 新 。 
forecast () 函数 预测 了 接 下 来 五 个 月 的 乘客 量 @， 图 15-9 给 出 了 其 折线 图 。 此 时 的 预测 基 
于 对 数 变换 后 的 数值 ， 因 此 我 们 通过 震 变 换 得 到 预测 的 乘客 量 ( 单位: 千 ) 上 四。 矩阵 predsmean 
包含 了 点 估计 值 ,矩阵 pr ds$slower 和 pr 


上 界 。exp () 函数 返回 了 基于 原始 斥 度 的 预测 值 ，cpina ( 

















) 用 于 整合 所 有 结 





在 三 月 份 将 有 509 200 个 乘客 ，95% 置 信 区 间 为 [4$4 900, 570 000]。 





dasupper 中 分 别 包含 了 80% 和 95% 置 信 区 间 的 下 界 以 及 
。 这 样 ， 模 型 预测 
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Forecast for Air Travel 


6.5 


6.0 


Log(AirPassengers) 
5 














© 
Lie] 
1950 1952 1954 1956 1958 1960 
Time 
图 15-9 ”基于 Holt-Winters 指 数 光滑 模型 的 预测 ( 对 数 变 换 后 ) ， 数 据 来 源 于 
AirPassengers 时 序 


15.3.3 ets () 函数 和 自动 预测 


ets () 函数 还 可 以 用 来 拟 合 有 可 乘 项 的 指数 模型 ， 加 入 抑制 因子 (dampening component )， 
以 及 进行 自动 预测 。 本 节 将 详细 讨论 ets () 函数 的 这 些 功能 。 

在 前 面 的 小 节 中 ， 我 们 对 AirPassengers 时 序 做 对 数 变 换 后 拟 合 出 了 可 加 指数 模型 。 类 似 
地 5 我 们 也 可 以 通 过 ets (AirPassengers, model="MAM") 了 清 数 或 hw(AirPassengers, 
seasonal="multiplicative") 困 数 对 原始 数据 拟 合 可 乘 模型 。 此 时 , 我 们 仍 假定 趋势 项 可 加 ， 
但 季节 项 和 误差 项 可 乘 。 当 采用 可 乘 模型 时 ， 准 确 度 统计 量 和 预测 值 都 基于 原始 尺度 ( 即 以 千 为 
单位 的 乘客 数 )。 这 也 是 它 的 一 个 明显 优势 。 
ets () 了 水 数 也 可 以 用 来 拟 合 抑制 项 。 时 序 预测 一 般 假定 序列 的 长 期 趋势 是 一 直 向 上 的 ( 如 房 
价 市 场 )， 而 一 个 抑制 项 则 使 得 趋势 项 在 一 段 时 间 内 靠近 一 条 水 平 渐 近 线 。 在 很 多 问题 中 ， 一 个 
有 抑制 项 的 模型 往往 更 符合 实际 情况 。 

最 后 , 我 们 也 可 以 通过 ets () 函数 自动 选取 对 原始 数据 拟 合 优 度 最 高 的 模型 。 以 对 Johnson & 
Johnson 数 据 的 指数 模型 拟 合 为 例 ， 代 码 清单 15-6 给 出 了 自动 选取 最 优 模型 的 步 又 。 




































































代码 清单 15-6 ”使 用 ets () 进 行 自动 指数 预测 
> library (forecast) 
> fit <- ets(JohnsonJohnson) 
四 


ETS (M,M,M) 
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Call: 
ets(ly = JohnsonJohnson) 


Smoothing parameters: 
alpha.S ‘(0.2328 
beta O00367 
gamma QS526T 


ll 


ll 


Initial states: 


L0625 

B's*T0286 

S=0u 60916. T2639 O59724 T3072. 
sigma 0.0863 

AIC ATICC BIC 


二 65624333 二 6443.93 呈 十 814159208 


> plot (forecast (fit), main="Johnson & Johnson Forecasts", 
ylab="Quarterly Earnings (Dollars)", xlab="Time", flty=2) 


这 里 我 们 并 没有 指定 模型 ,因此 软件 自动 搜索 了 一 系列 模型 , 并 在 其 中 找到 最 小 化 拟 合 标准 











( 默认 为 对 数 似 然 ) 的 模型 。 所 选中 的 模型 同时 有 可 乘 趋势 项 、 





季节 项 和 随机 误差 项 。 图 15-10 给 


出 了 其 折线 图 以 及 下 八 个 季度 ( 默认 ) 的 预测 。flty 参 数 指定 了 图 中 预测 值 折线 的 类 型 ( 虚线 )。 


Johnson & Johnson Forecasts 


15 20 25 


Quarterly Earnings (Dollars) 
10 


1960 1965 











1970 


Time 








1975 1980 





图 15-10” 带 趋势 项 和 季节 项 的 可 乘 指数 光滑 预测 ， 
959% 置 信 区 间 分 别 由 淡 灰 色 和 深 灰 色 表 示 








其 中 预测 值 由 虚线 表示 ，80% 和 
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如 前 所 述 , 指数 时 序 模型 以 其 在 短期 预测 上 的 良好 性 能 而 闻名 。 下 一 节 中 我 们 将 介绍 男 一 种 
常用 方法 ， 即 Box-Jenkins 法 ， 也 称 作 ARIMA 模 型 。 














15.4 ARIMA 预测 模型 


在 ARIMA 预 测 模型 中 ， 预 测 值 表示 为 由 最 近 的 真实 值 和 最 近 的 预测 误差 组 成 的 线性 函数 。 
ARIMA 比 较 复杂 ， 在 本 节 中 ， 我 们 只 讨论 对 非 季 节 性 时 序 建立 ARIMA 模 型 的 问题 。 

在 讨论 ARIMA 模 型 前 ， 我 们 首先 要 定义 一 系列 名 词 ， 包 括 澡 后 阶 数 (lag )、 自 相关 
(autocorrelation )、 偏 自 相 关 ( partial autocorrelation )、 差分 ( differencing ) 以 及 平稳 性 ( stationarity )。 
下 一 小 节 中 我 们 将 详细 介绍 这 些 名词 。 











15.4.1 概念 介绍 
时 序 的 滞后 阶 数 即 我 们 向 后 追溯 的 观测 值 的 数量 。 查 看 表 15-5$ 中 Nile 时 序 的 前 几 个 观测 值 。 
0 阶 滞后 项 (Lag 0 ) 代表 没有 移 位 的 时 序 ， 一 阶 滞后 (Lag 1 ) 代表 时 序 向 左 移动 一 位 ， 二 阶 滞后 
(Lag 2 ) 代表 时 序 向 左 移动 两 位 ， 以 此 类 推 。 时 序 可 以 通过 1ag (ts，k) 函数 变 成 x 阶 滞后 ， 其 中 
ts 指 代目 标 序 列 ，k 为 滞后 项 阶 数 。 
表 15-5 ”Nile 时 序 的 不 同 滞后 阶 数 














滞后 阶 数 1869 1870 1871 1872 1873 1874 1875 
0 1120 1160 963 1210 1160 
1 1120 1160 963 1210 1160 1160 
2 1120 1160 963 1210 1160 1160 813 


自 相 关 度 量 时 序 中 各 个 观测 值 之 间 的 相关 性 。ACxs 即 一 系列 观测 值 (六) 和 Kk 时 期 之 前 的 观测 
值 (7 ) 之 间 的 相关 性 。 这 样 ，ACi 就 是 一 阶 滞后 序列 和 0 阶 滞 后 序列 间 的 相关 性 ，AC? 是 二 阶 
滞后 序列 和 0 阶 滞后 序列 之 间 的 相关 性 ， 以 此 类 推 。 这 些 相关 性 【ACi, Ac …,ACr ) 构成 的 图 即 
自 相 关 函 数 图 ( AutoCorrelation Function plot，ACF 图 )。ACF 图 可 用 于 为 ARIMA 模 型 选择 合适 的 
参数 ， 并 评估 最 终 模 型 的 拟 合 效果 。 

stats 程 序 包 中 的 acf () 函数 或 者 forecast 包 中 的 Acf () 函数 可 以 生成 ACF 图 。 这 里 我 们 用 
的 是 Acf () 函数 ， 因 为 它 输 出 的 图 可 读 性 略 强 一 些 。 我 们 可 通过 Acf (ts) 语 句 输出 ACF 图 ， 其 中 
ts 是 原始 时 序 。 对 于 本 1,…, 18， 我 们 将 在 图 15-12 的 上 图 中 给 出 Nile 时 序 的 ACF 图 。 
偏 自 相关 即 当 序列 也 和 有 ,之 间 的 所 有 值 (了 ,了 二 ) 带 来 的 效应 都 被 移 除 后 ， 两 个 序 
列 间 的 相关 性 。 我 们 也 可 以 对 不 同 的 # 值 画 出 偏 自 相关 图 。stats 程 序 包 中 的 pacf () 函数 和 
forecast 包 中 的 Pacf () 函数 都 可 以 用 来 画 PACF 图 。 这 里 我 们 用 到 的 是 Pacf () 函数 ， 即 通过 
Pacf (ts) 晴 数 来 得 到 ts 序列 的 PACF 图 。PACF 图 也 可 以 用 来 找到 ARIMA 模 型 中 最 适宜 的 参数 ， 
Nile 序 列 的 PACF 图 将 在 图 15-12 的 下 图 给 出 。 

ARIMA 模 型 主要 用 于 拟 合 具有 平稳 性 (或 可 以 被 转换 为 平稳 序列 ) 的 时 间 序 列 。 在 一 个 平 
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稳 的 时 序 中 ,序列 的 统计 性 质 并 不 会 随 着 时 间 的 推移 而 改变 ， 比 如 的 均值 和 方差 都 是 恒定 的 。 
另外， 对 任意 沾 后 阶 数 k， 序 列 的 自 相关 性 不 改变 。 

一 般 来 说 ， 拟 合 ARIMA 模 型 前 都 需要 变换 序列 的 值 以 保证 方差 为 常数 。15.1.3 节 用 到 的 对 数 
变换 就 是 一 种 常用 的 变换 方法 ， 另 外 常见 的 还 有 8.5.2 节 中 用 到 的 Box-Cox 变 换 。 

由 于 一 般 假 定 平稳 性 时 序 有 常数 均值 , 这 样 的 序列 中 肯定 不 含有 趋势 项 。 非 平稳 的 时 序 可 以 
通过 差分 来 转换 为 平稳 性 序列 。 具 体 来 说 , 差分 就 是 将 时 序 中 的 每 一 个 观测 值 Z 和 者 替换 为 了 ,- 了 。 
注意 对 序列 的 一 次 差分 可 以 移 除 序列 中 的 线性 趋势 , 二 次 差分 移 除 二 次 项 趋势 , 三 次 差分 移 除 三 
次 项 趋势 。 在 实际 操作 中 ， 对 序列 进行 两 次 以 上 的 差分 通常 都 是 不 必要 的 。 

我 们 可 通过 aiff () 函数 对 序列 进行 差分 ， 即 Giff (ts, differences=9)， 其 中 G 即 对 序列 
ts 的 差分 次 数 ， 默 认 值 为 虹 1。forecast 包 中 的 naiffs () 函数 可 以 帮助 我 们 找到 最 优 的 d 值 ， 
语句 为 ndaiffs(ts) 。 

平稳 性 一 般 可 以 通过 时 序 图 直观 判断 。 如 果 方 差 不 是 常数 ， 则 需要 对 数据 做 变换 ; 如 果 数 据 
中 存在 趋势 项 ， 则 需要 对 其 进行 差分 。 也 可 以 通过 ADF ( Augmented Dickey-Fuller ) 统计 检验 来 
验证 平稳 性 假定 。R 中 tseries 包 的 adf .test () 可 以 用 来 做 ADF 检 验 ， 语句 为 adf .test (ts)， 
其 中 ts 为 需要 检验 的 序列 。 如 果 结 果 显 著 ， 则 认为 序列 满足 平稳 性 。 

总 之 ， 我 们 可 通过 ACF 和 PCF 图 来 为 ARIMA 模 型 选 定 参数 。 平 稳 性 是 ARIMA 模 型 中 的 一 个 
重要 假设 , 我 们 可 通过 数据 变换 和 差分 使 得 序列 满足 平稳 性 假定 。 了 解 了 这 些 概念 后 ,我 们 就 可 
以 拟 合 出 有 自 回 归 ( AutoRegressive，AR ) 项 、 移 动 平均 (Moving Averages，MA ) 项 或 者 两 者 
都 有 (ARMA ) 的 模型 了 。 最 后 ， 我 们 将 检验 有 ARMA 项 的 ARIMA 模 型 ， 并 对 其 进行 差分 以 保 
证 平稳 性 ( Integration )。 















































































































































15.4.2 ARMA 和 ARIMA 模型 





在 一 个 p 阶 自 回归 模型 中 ， 序 列 中 的 每 一 个 值 都 可 以 用 它 之 前 p 个 值 的 线性 组 合 来 表示 : 





AR(P):Y =HU+PBY +PY ,++p,Y ,+ €, 


忆 ti-p 























其 中 7 是 时 序 中 的 任 一 观测 值 ，/ 有 是 序列 的 均值 ，p 是 权重 ，8& 是 随机 扰动 。 在 一 个 g 阶 移动 平均 
模型 中 ， 时 序 中 的 每 个 值 都 可 以 用 之 前 的 4 个 残 差 的 线性 组 合 来 表示 ， 即 : 


MA(qg): Yu— Oe, 06,,). 06, +e, 


qd “t-g 


其 中 & 是 预测 的 残 差 ， 9 是 权重 。 注 意 这 里 说 的 移动 平均 与 15.1.2 节 中 说 的 简单 移动 平均 不 是 一 个 
概念 。 
这 两 种 方法 的 混合 即 ARMA(p, 9) 模 型 ， 其 表达 式 为 : 


Y=u+BY 1 +P,Y s+.+pP,Y, ,0é,1-0e, -06,, +6, 


pi tp g -9 


此 时 ， 序 列 中 的 每 个 观测 值 用 过 去 的 p 个 观测 值 和 4 个 残 差 的 线性 组 合 来 表示 。 
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ARIMA(p, d, 9) 模 型 意味 着 时 序 被 差分 了 qd 次 ， 且 序列 中 的 每 个 观测 值 都 是 用 过 去 的 p 个 观测 
值 和 4 个 残 差 的 线性 组 合 表示 的 。 预 测 是 “无 误差 的 ”或 完整 ( integrated ) 的 ， 来 实现 最 终 的 预 
测 。 

建立 ARIMA 模 型 的 步骤 包括 : 

(1) 确保 时 序 是 平稳 的 ; 

(2) 找到 一 个 (或 几 个 ) 合理 的 模型 ( 即 选 定 可 能 的 p 值 和 gq 值 ); 

(3) 拟 合 模 型 ; 

(4) 从 统计 假设 和 预测 准确 性 等 角度 评估 模型 ; 

(5) 预测 。 

接 下 来 ， 我 们 将 依次 应 用 这 几 个 步 又， 对 Nile 序 列 拟 合 ARIMA 模 型 。 

1. 验证 序列 的 平稳 性 

首先 ， 我 们 需要 画 出 序列 的 折线 图 并 判别 其 平稳 性 ( 见 代 码 清单 15-7 以 及 图 15-11 的 上 半 部 
分 )。 可 以 看 到 ， 各 观测 年 间 的 方差 似乎 是 稳定 的 ， 因 此 我 们 无 需 对 数据 做 变换 ;但 数据 中 可 能 
存在 某 种 趋势 ， 从 naiffs () 函数 的 结果 也 能 看 出 来 。 
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图 15-11 1871 ~ 1970 年 在 阿 斯 旺 地 区 测量 的 尼罗河 的 年 流量 (上 图 ) 以 及 被 差分 一 次 
后 的 折线 图 (下 图 ) ， 差 分 后 原始 数据 中 下 降 的 趋势 被 移 除 了 
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代码 清单 15-7 序列 的 变换 以 及 稳定 性 评估 
> library (forecast) 
> library (tseries) 
> plot (Nile) 
> ndiffs(Nile) 


[让] 二 


> dNile <- diff (Nile) 
> plot (dNile) 
> adf.test (dNile) 


Augmented Dickey-Fuller Test 


data: dNile 
Dickey-Fuller = -6.5924, Lag order = 4, p-value = 0.01 
alternative hypothesis: stationary 


原始 序列 差分 一 次 〈 函数 默认 一 阶 滞后 项 ， 即 lag=1 ) 并 存储 在 aNile 中 。 图 15-11 的 下 半 部 
分 是 差分 后 的 序列 的 折线 图 ， 显然 比 原始 序列 更 平稳 。 对 差分 后 的 序列 做 ADF 检 验 , 检验 结果 显 
示 序 列 此 时 是 平稳 的 ， 我 们 可 以 继续 下 一 步 。 

2. 选择 模型 

我 们 可 通过 ACF 图 和 PACF 图 来 选择 备 选 模型 . 


Acf (dNile) 
Pacf (dNile) 


15-12 给 出 了 序列 的 ACF 和 PACF 图 。 
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图 15-12 一 次 差分 后 的 Nile 序 列 的 自 相 关 和 偏 自 相关 图 
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我 们 需要 为 ARIMA 模 型 指定 参数 p、d 和 5。 从 前 文 可 以 得 到 吐 1。 表 15-6 给 出 了 结合 ACF 和 
PACF 图 选择 参数 p 和 v 的 方法 。 


表 15-6 ”选择 ARIMA 模 型 的 方法 








模 型 ACF PACF 
ARIMAW, d, 0) 逐渐 减 小 到 零 在 p 阶 后 减 小 到 零 
ARIMA(0, ,9) 4 阶 后 减 小 到 零 逐渐 减 小 到 零 
ARIMA(p, d, q) 逐渐 减 小 到 零 逐渐 减 小 到 零 





表 15-6 给 出 了 ARIMA 模 型 选择 的 理论 方法 ， 尽 管 实际 上 ACF 图 和 PACF 图 并 不 一 定 符合 表 中 
的 情况 ， 但 它 仍 然 可 以 给 我 们 一 个 大 致 思路 。 对 于 图 15-12 中 的 Nile 序 列 ， 可 以 看 到 在 滞后 项 为 
一 阶 时 有 一 个 比较 明显 的 自 相 关 ， 而 当 滞 后 阶 数 逐 渐 增 加 时 ， 偏 相关 逐渐 减 小 至 零 。 因 此 , 我 们 
可 以 考虑 ARIMA(0,1,1) 模 型 。 

3. 拟 合 模型 

我 们 可 以 用 arima() 子 数 拟 合 一 个 ARIMA 模 型 ， 其 表达 式 为 arima(ts,， 
order=c (q,d,9q) )。 代 码 清单 15-8 给 出 了 对 Nile 序 列 拟 合 ARIMA(0, 1, 1) 模 型 的 结果 。 











代码 清单 15-8 拟 合 ARIMA 模 型 
> library (forecast) 
> fit <- arima (Nile, order=c(0,1,1)) 
> :下定 已 


Series: Nile 
ARIMA(O0,1,1) 


Coefficients: 
mal 

07329 

Ss.e. QTLE43 


sigma^2 estimated as 20600: log likelihood=-632.55 
AIC=1269.09 ATGCG=L2609,.22 "BECG=1274.28 


> accuracy (fit) 


ME RMSE MAE MPE MAPE MASE 
Training set EL1594. 二 4258 十 1123223575 .12.94. .0.8089 


注意 这 里 我 们 指定 了 4d=1， 即 函数 将 对 序列 做 一 阶 差 分 ， 因 此 我 们 直接 将 模型 应 用 于 原始 序 
列 即 可 。 函 数 可 以 返回 移动 平均 项 的 系数 ( -0.73 ) 以 及 模型 的 AIC 值 。 如 果 我 们 还 有 其 他 备 选 模 
型 ， 则 可 以 通过 比较 AIC 值 来 得 到 最 合理 的 模型 ， 比 较 的 准则 是 AIC 值 越 小 越 好 。 另 外 ， 准 确 性 
度量 也 可 以 帮助 我 们 判断 模型 是 否 足够 准确 。 本 案例 中 , 对 百分比 误差 的 绝对 值 做 平均 的 结果 是 
13%。 
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4. 模型 评价 


一 般 来 说 ， 一 个 模型 如 果 合适 ， 那 模型 的 残 差 应 该 满足 均值 为 0 的 正 态 分 布 ， 并 且 对 于 任意 


的 请 后 阶 数 ， 残 差 和 月 相关 系数 都 应 该 为 零 。 换 句 话 说， 模型 的 残 差 应 该 满足 独立 正 态 


差 间 没有 关联 )。 我们 可 以 运行 以 下 代码 来 检验 这 些 假 设 。 
代码 清单 15-9 模型 评价 


> qqnorm(fit$residuals) 
> qqline(fit$residuals) 
> Box.test (fitsresiduals, type="Ljung-Box") 


Box-Ljung test 


data: fits$residuals 
X-squared = 1.3711, df = 1, p-value = 0.2416 

















cqnorm() 和 aaline() 函数 输出 的 图 如 图 1$-13 所 示 。 如 果 数 据 满足 正 态 分 布 ， 








点 会 落 在 图 中 的 线 上 。 显 然 ， 本 例 的 结果 还 不 错 。 


正 态 Q-Q 图 


200 


0 


样本 分 位 点 





图 论 分 位 点 
图 15-13 ”判断 序列 残 差 是 否 满足 正 态 性 假定 的 正 态 Q-Q 图 

















分 布 《 即 残 


则 数据 中 的 


Box.test () 函数 可 以 检验 残 差 的 自 相 关系 数 是 否 都 为 零 。 在 本 案例 中 ,模型 的 残 差 没 有 通 
过 显著 性 检验 ， 即 我 们 可 以 认为 残 差 的 自 相关 系数 为 零 。ARIMA 模 型 能 较 好 地 拟 合 本 数据 。 











5. 预测 














如 果 模 型 残 差 不 满足 正 态 性 假设 或 零 自 相关 系数 假设 , 则 需要 调整 模型 、 增 加 参数 或 改变 差 
分 次 数 。 当 我 们 选 定 模 型 后 , 就 可 以 用 它 来 做 预测 了 。 在 代码 清单 15-10 中 , 我 们 用 到 了 forecast 





包 中 的 forecast () 函数 来 实现 对 接 下 来 三 年 的 预测 。 
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代码 清单 15-10 ”用 ARIMA 模 型 做 预测 


> forecast (fit, 3) 


Point Forecast Lo 80 Hi 80 Lo 95 -95 
二 9:7 守 798.3673 614.4307 982.3040 517.0605 1079.674 
19:42 798.3673 607.9845 988.7502 507.2019 1089.533 
1973 798.3673 601.7495 994.9851 497.6663 1099.068 


> plot (forecast (fit, 3), xlab="Year", ylab="Annual Flow") 


plot () 函数 可 以 画 出 如 图 15-14 的 预测 图 。 图 中 黑色 的 点 为 预测 点 的 点 估计 ， 浅 灰色 和 深 灰 
色 区 域 分 别 代 表 80% 和 95% 的 置信 区 间 。 


ARIMA(0,1,1) 模 型 的 预测 值 

















年 流量 
1000 1200 ”1400 


800 


600 


1880 1900 1920 1940 1960 
年 份 
图 15-14 ”用 ARIMA(0,1,1) 模 型 对 Nile 序 列 做 接 下 来 三 年 的 预测 。 图 中 黑色 的 点 是 点 
估计 ， 浅 灰色 和 深 灰 色 区 域 分 别 代 表 80% 置 信 区 间 和 95% 置 信 区 间 





15.4.3 ARIMA 的 自动 预测 


在 15.2.3 节 中 , 我 们 可 以 通过 forecast 包 中 的 ets () 函数 实现 最 优 指数 模型 的 自动 选取 。 类 
似 地 ， 这 一 程序 包 中 的 auto.arima() 子 数 也 可 以 实现 最 优 ARIMA 模 型 的 自动 选取 。 在 代码 清 
单 15-11 中 ， 我 们 将 这 一 函数 应 用 于 sunspots 序 列 。 


代码 清单 15-11 ARIMA 的 自动 预测 
> library (forecast) 
> fit <- auto.arima (sunspots) 
六 从 千 忆 
Series: sunspots 
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ARIMA (2,1,2) 
Coefficients: 
arl ar2 mal ma2 
LS 0 06" Le 08L0 
See Qi03 0029. ‘0502 0.019 


sigma^2 estimated as 243: log likelihood=-11746 
AIC=23501 AICc=23501 BIC=23531 


> forecast (fit, 3) 


Point Forecast Lo 80 Hi 80 Lo 95 Hi 95 
Jan 1984 A405437722 2204412613. 60543418: .9.5855774 ‘710196Y 
Feb 1984 41.352897 18.2795867 64.42621 6.065314 76.64048 
Mar 1984 39.796425 15.2537785 64.33907 2.261686 77.33116 


> accuracy (fit) 


ME RMSE MAE MPE MAPE MASE 
Training set -0.02673 15.6 11.03 NaN Inf 0.32 


可 以 看 到 ， 据 数 选 定 ARIMA 模 型 的 参数 为 p=2、d=1 和 gq=2。 与 其 他 模型 相 比 ， 在 这 种 情况 下 
得 到 的 模型 的 AIC 值 最 小 。 由 于 序列 中 存在 值 为 零 的 观测 ，MPE 和 MAPE 这 两 个 准确 性 度量 都 失 
效 了 (这 也 是 这 两 个 统计 量 的 一 个 缺陷 )。 读 者 可 以 自行 画 出 结果 图 并 评价 模型 的 拟 合 效果 。 


15.5 延伸 阅读 


关于 时 序 分 析 和 预测 的 优秀 书目 有 很 多 。 如 果 你 对 于 这 个 领域 还 不 太 熟 悉 ， 那 么 Tizne Series 
( Open University，2006 ) 不 失 为 一 本 好 的 入 门 书 。 这 本 书 中 没有 给 出 对 应 的 R 人 代码， 但 它 对 于 这 
个 领域 的 介绍 非常 浅显 易 届 。 同 时 可 以 一 起 阅读 Avril Coghlan 所 著 的 4 Little Book of R for Time 
Series (http:/mng.bz/8fz0，2010 )， 这 本 书 中 给 出 了 详细 的 R 代 码 和 示例 。 

由 Rob Hyndman 和 George Athanasopoulos 所 著 的 Forecasts: Principles and Practice 
( http://otexts.com/fpp，2013 ) 也 是 一 本 简洁 清晰 的 在 线 教程 。 这 本 书 提供 了 相应 的 R 人 代码， 笔者 
非常 推荐 。 另 外 ，Cowpertwait 和 Metcalfe 也 曾 在 2009 年 写 过 著作 ,阐述 怎样 用 R 做 时 间 序 列 分 析 。 
Shumway 和 Stoffer 在 2010 年 出 版 的 教程 则 更 适用 于 进 阶 读者 ， 其 中 提供 了 相应 的 R 代 码 。 

最 后 ，CRAN 任 务 视图 里 中 也 有 时 间 序 列 分 析 的 内 容 (http:Wcran.r-project.org/web/views/ 
TimeSeries.html )， 其 中 详细 介绍 了 R 中 可 用 的 时 序 分 析 功 能 。 



































15.6 小结 


关于 预测 的 历史 非常 长 。 从 早年 间 有 巫师 预测 天 气 到 现代 数据 科学 家 预测 大 选 结 果 ,， 预测 无 论 
在 自然 科学 还 是 人 文 社 科 中 都 是 一 个 基础 性 的 问题 。 在 这 一 章 中 ,我 们 着 重 研究 了 如 何在 R 中 生 
成 时 间 序 列 、 判 断 序列 中 是 否 存 在 某 种 趋势 或 季节 性 因素 ,并 探讨 了 最 常用 的 两 种 预测 手段 ， 即 
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旺 数 模型 和 ARIMA 模 型 。 

尽管 这 些 方法 对 于 理解 、 预 测 很 多 现象 都 十 分 关键 , 但 要 时 刻 记 住 的 是 这 些 方法 都 用 到 了 疝 
外 推断 的 思想 , 即 它们 都 假定 未 来 的 条 件 与 现在 的 条 件 是 相似 的 。 比 如 2007 年 的 金融 预测 就 认为 
2008 年 以 后 的 经 济 状况 会 与 2007 年 一 样 稳定 , 但 事实 并 不 是 这 样 。 很 多 事情 都 可 能 改变 序列 中 的 
趋势 和 模式 ， 你 想 预测 的 时 间 跨 度 越 大 ， 不 确定 性 就 越 大 。 

在 下 一 章 中 ， 我 们 将 切换 视角 ， 着 重 探讨 对 人 和 群 或 观测 值 分 类 的 方法 。 
































聚 类 分 析 








本 章 内 容 

口 找 出 可 能 的 类 

口 确定 类 的 个 数 

口 获得 类 的 般 套 层级 
口 获得 离散 的 类 


























聚 类 分 析 是 一 种 数据 归 约 技术 , 旨 在 揭露 一 个 数据 集中 观测 值 的 子 集 。 它 可 以 把 大 量 的 观测 
值 归 约 为 若干 个 类 。 这 里 的 类 被 定义 为 若干 个 观测 值 组 成 的 群 组 , 群 组 内 观测 值 的 相似 度 比 群 间 
相似 度 高 。 这 不 是 一 个 精确 的 定义 ， 从 而 导致 了 各 种 聚 类 方法 的 出 现 。 

聚 类 分 析 被 广泛 用 于 生物 和 行为 科学 、 市 场 以 及 医学 研究 中 。 例如 , 一 名 心理 学 研究 员 可 能 
基于 抑郁 症 病 人 的 症状 和 人 口 统计 学 数据 对 病人 进行 聚 类 , 试图 得 出 抑郁 症 的 亚 型 ， 以 期 通过 亚 
型 来 找到 更 加 有 针对 性 和 有 效 的 治疗 方法 , 同时 更 好 地 了 解 这 种 疾病 。 营 销 研究 人 员 根 据 消费 者 
的 人 口 统计 特征 与 购买 行为 的 相似 性 制定 客户 细 分 战略 , 并 基于 此 对 其 中 的 一 个 或 多 个 子 组 制定 
相应 的 营销 战略 。 医 学 研究 人 员 通 过 对 DNA 微 阵列 数据 进行 聚 类 分 析 来 获得 基因 表达 模式 , 从 而 
帮助 他 们 理解 人 类 的 正常 发 育 以 及 导致 许多 疾病 的 根本 原因 。 

最 常用 的 两 种 聚 类 方法 是 层次 聚 类 (hierarchical agglomerative clustering ) 和 划分 聚 类 
( partitioning clustering )。 在 层次 聚 类 中 ， 每 一 个 观测 值 自 成 一 类 ， 这 些 类 每 次 两 两 合并 ， 直 到 所 
有 的 类 被 聚 成 一 类 为 止 。 在 划分 聚 类 中 ， 首 先 指 定 类 的 个 数 玉 ， 然 后 观测 值 被 随机 分 成 KE 类 ， 再 
重新 形成 聚合 的 类 。 

这 两 种 方法 都 对 应 许多 可 供 选择 的 聚 类 算法 。 对 于 层次 聚 类 来 说 ， 最 常用 的 算法 是 单 联 动 
( single linkage )、 全 联动 (complete linkage )、 平 均 联动 (average linkage )、 质 心 (centroid ) 和 
Ward 方 法 。 对 于 划分 聚 类 来 说 , 最 常用 的 算法 是 K 均 值 (K-means ) 和 围绕 中 心 点 的 划分 (PAM )。 
每 个 聚 类 方法 都 有 它 的 优点 和 缺点 ， 我 们 将 在 本 章 讨论 。 

这 一 章 的 例子 围绕 食物 和 酒 (也 是 我 的 爱好 )。 我 们 对 flexclust 包 中 的 营养 数据 集 
nutrient 作 层次 聚 类 ， 以 期 回答 以 下 问题 。 

口 基于 五 种 营养 标准 的 27 类 鱼 、 禽 、 肉 的 相同 点 和 不 同 点 是 什么 ? 
口 是 否 有 一 种 方法 能 把 这 些 食物 分 成 若干 个 有 意义 的 类 ? 
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我 们 再 用 划分 聚 类 来 分 析 178 种 意大利 葡萄 酒 样品 的 13 种 化 学 成 分 。 数 据 在 rattle 包 的 
wine 数 据 集中 。 这 里 要 解决 的 问题 如 下 。 
口 这 些 意 大 利 葡萄 酒 样品 能 继续 分 成 更 细 的 组 吗 ? 
口 如 果 能 ， 有 多 少子 组 ? 它们 的 特征 是 什么 ? 

事实 上 ， 样 品 中 共有 三 个 品种 的 酒 〈 记 为 类 )。 这 可 以 帮助 我 们 评 佑 聚 类 分 析 能 否 辨别 这 一 
结构 。 

尽管 聚 类 方法 种 类 各 异 , 但 是 它们 通常 遵循 相似 的 步 又 。 我 们 在 16.1 节 描述 了 这 些 步 又 。16.2 
节 主 要 探讨 层次 聚 类 ，16.3 节 则 探讨 划分 聚 类 。 最 后 ，16.4 节 提出 了 一 些 相关 建议 。 为 了 保证 本 
章 的 代码 能 正常 运行 ， 你 必须 确保 安装 了 以 下 软件 包 : cluster 、Nbclust 、flexclust、 
fMultivar、ggplot2 和 rattle。 第 17 章 也 将 用 到 rattle 包 。 


16.1 聚 类 分 析 的 一 般 步 又 


像 因子 分 析 (第 14 童 ) 一 样 ， 有 效 的 聚 类 分 析 是 一 个 多 步骤 的 过 程 ， 这 其 中 每 一 次 决策 都 可 
能 影响 聚 类 结果 的 质量 和 有 效 性 。 本 节 介 绍 一 个 全 面 的 聚 类 分 析 中 的 11 个 典型 步 又。 

(1) 选择 合适 的 变量 。 第 一 〈 并 且 可 能 是 最 重要 的 ) 步 是 选择 你 感觉 可 能 对 识别 和 理解 数据 
中 不 同 观测 值 分 组 有 重要 影响 的 变量 。 例 如 , 在 一 项 抑郁 证 研究 中 , 你 可 能 会 评估 以 下 一 个 或 多 
个 方面 : 心理 学 症状 ,身体 症状 ， 发病 年 龄 ， 发 病 次 数 、 持 续 时 间 和 发 作 时 间 ， 住 院 次 数 ， 自 理 
能 力 ， 社 会 和 工作 经 历 ， 当 前 的 年 龄 ， 性 别 ， 种族 ,社会 经 济 地 位 ， 婚 姻 状 况 ， 家族 病史 以 及 对 
以 前 治疗 的 反应 。 高 级 的 聚 类 方法 也 不 能 弥补 聚 类 变量 选 不 好 的 问题 。 

(2) 缩放 数据 。 如 果 我 们 在 分 析 中 选择 的 变量 变化 范围 很 大 ,那么 该 变量 对 结果 的 影响 也 是 
最 大 的 。 这 往往 是 不 可 取 的 , 分 析 师 往往 在 分 析 之 前 缩放 数据 。 最 常用 的 方法 是 将 每 个 变量 标准 
化 为 均值 为 0 和 和 标准 差 为 1 的 变量 。 其 他 的 替代 方法 包括 每 个 变量 被 其 最 大 值 相 除 或 该 变量 减 去 它 
的 平均 值 并 除 以 变量 的 平均 绝对 偏差 。 这 三 种 方法 能 用 下 面 的 代码 来 解释 : 

df1 <- apply (mydata, 2, function { (x-mean (x) ) /sd (x)}) 


(x) 
df2 <- apply (mydata, 2, function(x) {x/max (x)}) 
df3 <- apply (mydata, 2, function(x){(x - mean(x))/mad(x)}) 


在 本 章 中 , 你 可 以 使 用 scale () 函数 来 将 变量 标准 化 到 均值 为 0/ 和 标准 差 为 1 的 变量 。 这 和 第 
一 个 代码 片段 (af1 ) 等 价 。 

(3) 寻找 异常 点 。 许 多 聚 类 方法 对 于 异常 值 是 十 分 敏感 的 ， 它 能 扭曲 我 们 得 到 的 聚 类 方案 。 
你 可 以 通过 outliers 包 中 的 因 数 来 租 选 (和 删除 ) 异常 单 变 量 离 群 点 。mvoutlier 包 中 包含 了 
能 识别 多 元 变量 的 离 群 点 的 函数 。 一 个 替代 的 方法 是 使 用 对 异常 值 稳健 的 聚 类 方法 ,围绕 中 心 点 
的 划分 (16.3.2 节 ) 可 以 很 好 地 解释 这 种 方法 。 

(4) 计算 距离 。 尽 管 不 同 的 聚 类 算法 差异 很 大 ， 但 是 它们 通常 需要 计算 被 聚 类 的 实体 之 间 的 
距离 。 两 个 观测 值 之 间 最 常用 的 距离 量度 是 欧 几 里 得 距离 ， 其 他 可 选 的 量度 包括 曼哈顿 距离 、 兰 
氏 距 离 、 非 对 称 二 元 距离 、 最 大 距离 和 闵可夫 斯 基 距 离 ( 可 使 用 ?aist 查 看 详细 信息 )。 在 这 一 
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章 中 ,计算 距离 时 默认 使 用 欧 几 里 得 距离 。 计 算 欧 几 里 得 距离 的 方法 见 16.1.1 节 。 

(5) 选择 聚 类 算法 。 接 下 来 选择 对 数据 聚 类 的 方法 ， 层 次 聚 类 对 于 小 样本 来 说 很 实用 〈 如 150 
个 观测 值 或 更 少 )， 而 且 这 种 情况 下 衣 套 聚 类 更 实用 。 划 分 的 方法 能 处 理 更 大 的 数据 量 ， 但 是 需 
要 事先 确定 聚 类 的 个 数 。 一 旦 选 定 了 层次 方法 或 划分 方法 ， 就 必须 选择 一 个 特定 的 聚 类 算法 。 这 
里 再 次 强调 每 个 算法 都 有 优点 和 缺点 。16.2 节 和 16.3 节 中 介绍 了 最 常用 的 几 种 方法 。 你 可 以 尝试 
多 种 算法 来 看 看 相应 结果 的 稳健 性 。 

(6) 获得 一 种 或 多 种 聚 类 方法 。 这 一 步 可 以 使 用 步骤 (5) 选 择 的 方法 。 

(7) 确定 类 的 数目 。 为 了 得 到 最 终 的 聚 类 方案 ， 你 必须 确定 类 的 数目 。 对 此 研究 者 们 也 提出 
了 很 多 相应 的 解决 方法 。 常 用 方法 是 尝试 不 同 的 类 数 ( 比如 2 ~ 天 ) 并 比较 解 的 质量 。 在 Nbclust 
包 中 的 Nbclust () 函数 提供 了 30 个 不 同 的 指标 来 帮助 你 进行 选择 ( 也 表明 这 个 问题 有 多 么 难 解 )。 
本 章 将 多 次 使 用 这 个 包 。 

(8) 获得 最 终 的 聚 类 解决 方案 。 一 旦 类 的 个 数 确定 下 来 ， 就 可 以 提取 出 子 群 ， 形 成 最 终 的 聚 
类 方案 了 。 

(9) 结果 可 视 化 。 可 视 化 可 以 帮助 你 判定 了 类 方案 的 意义 和 用 处 。 层 次 聚 类 的 结果 通常 表示 
为 一 个 树 状 图 。 划 分 的 结果 通常 利用 可 视 化 双 变 量 聚 类 图 来 表示 。 

(10) 解读 类 。 一 旦 聚 类 方案 确定 ， 你 必须 解释 (或许 命名 ) 这 个 类 。 一 个 类 中 的 观测 值 有 何 
相似 之 处 ? 不 同 的 类 之 间 的 观测 值 有 何不 同 ” 这 一 步 通常 通过 获得 类 中 每 个 变量 的 汇总 统计 来 
完成 。 对 于 连续 数据 ， 每 一 类 中 变量 的 均值 和 中 位 数 会 被 计算 出 来 。 对 于 混合 数据 (数据 中 包含 
分 类 变量 )， 结 果 中 将 返回 各 类 的 众 数 或 类 别 分 布 。 

(11) 验证 结果 。 验 证 聚 类 方案 相当 于 问 :“ 这 种 划分 并 不 是 因为 数据 集 或 聚 类 方法 的 某 种 特 
性 ， 而 是 确实 给 出 了 一 个 某 种 程度 上 有 实际 意义 的 结果 吗 ? ”如 果 采 用 不 同 的 聚 类 方法 或 不 同 的 
样本 ， 是 否 会 产生 相同 的 类 ? fpc、clv 和 clvalid 包 包含 了 评估 上 聚 类 解 的 稳定 性 的 函数 。 

为 观测 值 之 间距 离 的 计算 是 聚 类 分 析 的 一 部 分 ， 所 以 我 们 将 在 下 一 节 详 细 讨论 。 


16.2 ”计算 距离 


聚 类 分 析 的 第 一 步 都 是 度量 样本 单元 间 的 距离 、 相 异性 或 相似 性 。 两 个 观测 值 之 间 的 欧 几 里 
得 距离 定义 为 : 
















































































































































































p 2 
d; = > p=1 (x 本 Xp) 


这 里 ;和 /代表 第 ;和 第 /个 观测 值 ，p 是 变量 的 个 数 。 
查看 在 flexclust 包 中 的 营养 数据 集 , 它 包 括 对 27 种 肉 、 鱼 和 禽 的 营养 物质 的 测量 。 最 初 的 
几 个 观测 值 由 下 面 的 代码 给 出 : 


> data(nutrient, package="flexclust") 
> head (nutrient, 4) 
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energy protein fat calcium iron 


BEEF BRAISED 340 20 
HAMBURGER 245 21 
BEEF ROAST 420 15 
BEEF STEAK 37.5 19 





28 


9 2 
9. 2 
.0 
9 256 


前 两 个 观测 值 ( BEEF BRAISED 和 HAMBURGER ) 之 间 的 欧 几 里 得 距离 为 : 














d = (340-245) + (20-21)’ +(28-17) +(9-9) +(26-27) =95.64 


R 软 件 中 自 带 的 aist () 函数 能 用 来 计算 矩阵 或 数据 框 中 所 有 行 ( 观测 值 ) 之 间 的 距离 。 格 式 



































是 dist (x，method=)， 这 里 的 x 表示 输入 数据 ， 并 日 默 认为 欧 几 里 得 距离 。 限 数 默 认 返 回 一 个 














下 三 角 和 矩阵 ， 但 是 as .matrix() 函数 可 使 用 标准 括号 符号 得 到 距离 。 对 于 营养 数据 集 的 数据 框 


来 说 ， 前 四 行 的 距离 为 : 
> d <- dist(nutrient) 
> as.matrix(d) [1:4,1:4] 


BEEF BRAISED HAMBURGER BEEF ROAST BEEF STEAK 


BEEF BRAISED 0.0 
HAMBURGER 95:..6 
BEEF ROAST 80.9 
BEEF STEAK 和 322 


9.536 80.9 33.22 

0.0 工 765 5 130:..9 
A Se 0.0 45.8 
3:0is9 45.8 0.0 








观测 值 之 间 的 距离 越 大 ， 异 质 性 越 大 。 观 测 值 和 它 自己 之 间 的 距离 是 0。 不 出 所 料 ，aist () 
函数 计算 出 的 红烧 牛肉 和 汉堡 之 间 的 距离 与 手 算 一 致 。 





了 围绕 中 心 点 的 划分 的 方法 。 





需要 注意 的 是 ， 在 营养 数据 集中 ， 距 离 很 大 程度 上 由 能 量 ( energy ) 这 个 变量 控制 ， 这 
因为 该 变量 变化 范围 更 大 。 缩 放 数据 有 利于 均衡 各 变量 的 影响 。 在 下 一 节 中 , 你 可 以 对 该 数据 集 








应 用 层次 聚 类 分 析 。 
16.3 ”层次 聚 类 分 析 


混合 数据 类 型 的 聚 类 分 析 

欧 几 里 得 距离 通常 作为 连续 型 数据 的 距离 度量 。 但 是 如 果 存 在 其 他 类 型 的 数据 , 则 需要 相 
异 的 替代 措施 ， 你 可 以 使 用 cluster 包 中 的 daisy() 函数 来 获得 包含 任意 二 元 (binary )、 名 义 
(nominal )、 有 序 (ordinal )、 连 续 ( continuous ) 属性 组 合 的 相 异 和 矩阵 。cluster 包 中 的 其 他 函 
数 可 以 使 用 这 些 异 质 性 来 进行 聚 类 分 析 。 例 如 agnes () 函数 提供 了 层次 聚 类 ，pam() 函数 提供 

















人 马上 司 . 











如 前 所 述 , 在 层次 聚 类 中 , 起 初 每 一 个 实例 或 观测 值 属 于 一 类 。 聚 类 就 是 每 一 次 把 两 类 聚 成 





新 的 一 类 ， 直 到 所 有 的 类 只 成 单个 类 为 止 ,算法 如 下 : 


(1) 定义 每 个 观测 值 ( 行 或 单元 ) 为 一 类 ; 
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(2) 计算 每 类 和 其 他 各 类 的 距离 ; 

(3) 把 距离 最 短 的 两 类 合并 成 一 类 ， 这 样 类 的 个 数 就 减少 一 个 ; 

(4) 重复 步骤 (2) 和 步 又 (3)， 直 到 包含 所 有 观测 值 的 类 合并 成 单个 的 类 为 止 。 

在 层次 聚 类 算法 中 ， 主 要 的 区 别 是 它们 对 类 的 定义 不 同 〈 步 骤 C) )。 表 16-1 给 出 了 五 种 最 常 
见 聚 类 方法 的 定义 和 其 中 两 类 之 间距 离 的 定义 。 


表 16-1 层次 聚 类 方法 





















































聚 类 方法 两 类 之 间 的 距离 定义 

单 联 动 一 个 类 中 的 点 和 另 一 个 类 中 的 点 的 最 小 距离 

全 联动 一 个 类 中 的 点 和 另 一 个 类 中 的 点 的 最 大 距离 

平均 联动 一 个 类 中 的 点 和 另 一 个 类 中 的 点 的 平均 距离 (也 称 作 UPGMA ， 即 非 加 权 对 组 平均 ) 
质心 两 类 中 质心 (变量 均值 向 量 ) 之 间 的 距离 。 对 单个 的 观测 值 来 说 ， 质 心 就 是 变量 的 值 
Ward 法 两 个 类 之 间 所 有 变量 的 方差 分 析 的 平方 和 








单 联动 聚 类 方法 倾向 于 发 现 细 长 的 、 雪 茄 型 的 类 。 它 也 通常 展示 一 种 链 式 的 现象 ， 即 不 相似 
的 观测 值 分 到 一 类 中 , 因为 它们 和 它们 的 中 间 值 很 相像 。 全 联动 聚 类 倾向 于 发 现 大 致 相等 的 直径 
紧凑 类 。 它 对 异常 值 很 敏感 。 平 均 联 动 提 供 了 以 上 两 种 方法 的 折 中 。 相 对 来 说 ， 它 不 像 链 式 ， 而 
且 对 异常 值 没 有 那么 敏感 。 它 倾向 于 把 方差 小 的 类 聚合 。 

Ward 法 倾向 于 把 有 少量 观测 值 的 类 聚合 到 一 起 ， 并 且 倾 向 于 产生 与 观测 值 个 数 大 致 相等 的 
类 。 它 对 异常 值 也 是 敏感 的 。 质 心 法 是 一 种 很 受 欢迎 的 方法 ， 因 为 其 中 类 距离 的 定义 比较 简单 、 
易于 理解 。 相 比 其 他 方法 , 它 对 异常 值 不 是 很 敏感 。 但 是 它 可 能 不 如 平均 联动 法 或 Ward 方 法 表现 
得 好 。 

层次 聚 类 方法 可 以 用 hclust () 函数 来 实现 ， 格 式 是 hclust (dg，method=) ， 其 中 a 是 通过 
dist() 图 数 产 后 的 距离 矩阵 ， 并 且 方 法 包括 "single" 、"complete" 、"average" 、 
"centroid" 和 "ward"。 

在 本 节 中 ， 你 可 以 使 用 平均 联动 聚 类 方法 处 理 16.1.1 节 介绍 的 营养 数据 。 我 们 的 目的 是 
基于 27 种 食物 的 营养 信息 辨别 其 相似 性 、 相 异性 并 分 组 。 下 面 的 代码 清单 提供 了 实施 聚 类 的 
代码 。 


代码 清单 16-1 营养 数据 的 平均 联动 聚 类 
data(nutrient, package="flexclust") 


row.names (nutrient) <- tolower (row.names (nutrient)) 
nutrient.scaled <- scale(nutrient) 



























































Q <- dist (nutrient.scaled) 


fit.average <- hclust(d, method="average") 
plot (fit.average, hang=-1, cex=.8, main="Average Linkage Clustering") 



































首先 载 人 数据 ， 同 时 将 行 名 改 为 小 写 〈 因 为 我 讨厌 大 写 的 标签 )。 由 于 变量 值 的 变化 范围 很 
大 , 我 们 将 其 标准 化 为 均值 为 0、 方 差 为 1。27 种 食物 之 间 的 距离 采用 欧 几 里 得 距离 ， 应 用 的 方法 
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是 平均 联动 。 最 后 ,结果 用 树 状 图 来 展示 ( 参见 图 16-1 )。plot () 函数 中 的 hang 命 令 展示 观测 值 
的 标签 ( 让 它们 在 挂 在 0 下 面 )。 








Average-Linkage Clustering 


Height 


石 七 世 世 类 


是 六 苇 贡 着 所 [oo 朱 毅 
TD TD wo EEG00L00LD3 中 全 名 
EEC 
Ss 区 SEE 2 钾 梧 记 人 
S25 S53rERHSSI S52555sa 
0 0 证 负 HS oD¥EoCD S00 人 FeEPFOCooo 省 

已 @ 和 总 uf 证 臣 : 
里 巧 中 下 呈 号 遇 币 袜 和 万 下 5 及 革 三 于 时 到 Og 
Tocn S30o 8 OFAdGtj 人 ”cofedce 和 tl 
Ee 所 2 冯 和 E 浊 品 o Se 回 
二 已 汪 三 5 六 只 上 省 Eso 三 区 5 
关 5 SoGeH 与 所 - 雪 , 汪 喜 豆 
加 On oo 5 四 
on 全 二 < 5 

涵 


d 
helust (*, "average") 


图 16-1 ”营养 数据 的 平均 联动 聚 类 


树 状 图 应 该 从 下 往 上 读 , 它 展 示 了 这 些 条 目 如 何 被 结合 成 类 。 每 个 观测 值 起 初 自 成 一 类 ， 然 
后 相距 最 近 的 两 类 (beef braised 和 smoked ham ) 合并 。 其 次 ，pork roast 和 pork simmered 合 并 ， 
chicken canned 和 tuna canned 合 并 。 再 次 , beef braised/smoked ham 这 一 类 和 pork roast/pork simmered 
这 一 类 合并 (这 个 类 目前 包含 四 种 食品 )。 合 并 继续 进行 下 去 ， 直 到 所 有 的 观测 值 合并 成 一 类 。 
高 度 刻 度 代 表 了 该 高 度 类 之 间 合 并 的 判定 值 。 对 于 平均 联动 来 说 , 标准 是 一 类 中 的 点 和 其 他 类 中 
的 点 的 距离 平均 值 。 

如 果 你 的 目的 是 理解 基于 食物 营养 成 分 的 相似 性 和 相 异 性 ,图 16-1 就 足够 了 。 它 提供 了 27 种 
食物 之 间 的 相似 性 / 异 质 性 的 层次 分 析 视 图 ,tuna canned 和 chicken canned 是 相似 的 ,但 是 都 和 clams 
canned 有 很 大 的 不 同 。 但 是 ， 如 果 最 终 目 标 是 这 些 食品 分 配 到 的 类 (希望 有 意义 的 ) 较 少 , 我们 
需要 额外 的 分 析 来 选择 聚 类 的 适当 个 数 。 

Nbclust 包 提供 了 众多 的 指数 来 确定 在 一 个 聚 类 分 析 里 类 的 最 佳 数目 。 不 能 保证 这 些 指 标 得 
出 的 结果 都 一 致 。 事实 上 , 它们 可 能 不 一 样 。 但 是 结果 可 用 来 作为 选择 聚 类 个 数 K 值 的 一 个 参考 。 
Nbclust () 函数 的 输入 包括 需要 做 聚 类 的 矩阵 或 是 数据 框 , 使 用 的 距离 测度 和 夷 类 方法 , 并 考虑 
最 小 和 最 大 聚 类 的 个 数 来 进行 聚 类 。 它 返回 每 一 个 聚 类 指数 ,同时 输出 建议 聚 类 的 最 佳 数 目 。 下 
面 的 代码 清单 使 用 该 方法 处 理 营 养 数据 的 平均 联动 聚 类 。 
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代码 清单 16-2 ”选择 聚 类 的 个 数 
> library (NbClust) 
> devAskNewPage (ask=TRUE) 
> nc <- NbClust (nutrient.scaled, distance="euclidean", 
min.nc=2, max.nc=15, method="average") 
> table(nc$sBest.n[1,]) 


0 2 “3 Me 19 lO 3 L415 
2 4 4 3 4 1 1 2 1 4 


> barplot (table (nc$sBest.n[1,]), 
xlab="Numer of Clusters", ylab="Number of Criteria", 
main="Number of Clusters Chosen by 26 Criteria") 


这 里 ， 四 个 评判 准则 赞同 聚 类 个 数 为 2， 四 个 判定 准则 赞同 聚 类 个 数 为 3 ， 等 等 。 结 果 在 图 
16-2 中 。 











Number of Criteria 
2 3 


1 


Number of Clusters Chosen by 26 Criteria 
3 4 5 9 10 13 14 15 


be 下 
0 1 2 
Number of Clusters 


图 16-2 ”使 用 Nbclust 包 中 提供 的 26 个 评判 准则 得 到 的 推荐 聚 类 个 数 

你 可 以 试 着 用 “投票 ”个 数 最 多 的 聚 类 个 数 (2、3、5 和 15 ) 并 选择 其 中 一 个 使 得 解释 最 有 
意义 。 下 面 的 代码 清单 展示 了 五 类 聚 类 的 方案 。 
代码 清单 16-3 ”获取 最 终 的 聚 类 方案 


> clusters <- cutree(fit.average, k=5) 
> table(clusters) 分 配 情况 


clusters 
1 2, 
寻 6 : 汕 ， 旋 油 


























> aggregate (nutrient, by=list (cluster=clusters), median) 


cluster energy protein fat calcium iron 
1 1 340.0 E90: 229 9 2850 
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2 2 170.0 20 8 13: 4D 
3 3 160.0 26 5 14 5.90 
4 4 S75 9 1 ji 
5 5 L800 22 9 367 D50 
> aggregate(as.data.frame (nutrient.scaled), by=list (cluster=clusters), 
median) 

cluster energy protein fat calcium iron 
1 3 “310 0.:000 1.379 =0.448 0.0811 
2 2 £0.3370 O0235° 0 87 ‘0.397 S06374 
3 3 -0.468 62460.753 =0.384 2;40%8 
4 4 -1481. -2% 352 =1:109 0.436 2.2709 
5 9 S03 2A Qt. POG 0398 4 L400 050811 


lot (fit.average, hang=-1, cex=.8, 16 
> 卫 (开工 V 9g 9 Xx 结果 绘图 


main="Average Linkage Clustering\n5 Cluster Solution") 
> rect.hclust (fit.average, k=5) 


cutree() 函数 用 来 把 树 状 图 分 成 五 类 @, 第 一 类 有 7 个 观测 值 , 第 二 类 有 16 个 观测 值 , 等 等 。 
aggregate() 函数 用 来 获取 每 类 的 中 位 数 @@， 结 果 有 原始 度量 和 标准 度量 两 种 形式 。 最 后 ， 树 
状 图 被 重新 绘制 ，rect .hclust () 函数 用 来 受 加 五 类 的 解决 方案 四 。 结 果 展 示 在 图 16-3 中 。 


Average-Linkage Clustering 
5 Cluster Solution 
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hclust (*, "average") 


图 16-3 ”使 用 五 类 解决 方案 得 到 营养 数据 的 平均 联动 聚 类 
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sardines canned 形 成 自己 的 类 ， 因 为 钙 比 其 他 食物 组 要 高 得 多 。beef heart 也 是 单独 成 类 ， 是 
为 富 含 蛋 白质 和 铁 。clams 类 是 低 和 蛋白 和 高 铁 的 。 从 beef roast 到 pork simmered 的 类 中 ， 所 有 项 
目 都 是 高 能 量 和 高 脂肪 的 。 最 后 ， 最 大 的 类 ( 从 mackerel canned 到 bluefish baked ) 含有 相对 较 低 
的 铁 。 

当 需 要 骸 套 聚 类 和 有 意义 的 层次 结构 时 , 层次 聚 类 或 许 特 别 有 用 。 在 生物 科学 中 这 种 情况 很 
常见 。 在 某 种 意义 上 分 层 算法 是 贪 栖 的 ,一旦 一 个 观测 值 被 分 配给 一 个 类 , 它 就 不 能 在 后 面 的 过 
程 中 被 重新 分 配 。 另 外 ,层次 聚 类 难以 应 用 到 有 数 百 甚至 数 千 观 测 值 的 大 样本 中 。 不 过 划分 方法 
可 以 在 大 样本 情况 下 做 得 很 好 。 


16.4 划分 聚 类 分 析 


在 划分 方法 中 ， 观 测 值 被 分 为 KE 组 并 根据 给 定 的 规则 改组 成 最 有 粘性 的 类 。 这 一 节 讨 论 两 种 
方法 : KK 均值 和 基于 中 心 点 的 划分 (PAM )。 


16.4.1 K 均 值 聚 类 


最 常见 的 划分 方法 是 K 均 值 聚 类 分 析 。 从 概念 上 讲 ，K 均 值 算 法 如 下 : 

(1) 选择 K 个 中 心 点 ( 随机 选择 K 行 ); 

(2) 把 每 个 数据 点 分 配 到 离 它 最 近 的 中 心 点 ; 

(3) 重新 计算 每 类 中 的 点 到 该 类 中 心 点 距离 的 平均 值 (也 就 说 ,得 到 长 度 为 p 的 均值 向 量 ,这 
里 的 p 是 变量 的 个 数 ); 

(4) 分 配 每 个 数据 到 它 最 近 的 中 心 点 ; 

(5) 重复 步骤 (3) 和 步骤 (4) 直 到 所 有 的 观测 值 不 再 被 分 配 或 是 达到 最 大 的 迭代 次 数 (R 把 10 次 
作为 默认 迷 代 次 数 )。 
这 种 方法 的 实施 细节 可 以 变化 。R 软 件 使 用 Hartigan & Wong( 1979 ) 提出 的 有 效 算法 ， 这 种 
算法 是 把 观测 值 分 成 组 并 使 得 观测 值 到 其 指定 的 聚 类 中 心 的 平方 的 总 和 为 最 小 。 也 就 是 说 ， 在 
步 又 C2) 和 步骤 (4) 中 ， 每 个 观测 值 被 分 配 到 使 下 式 得 到 最 小 值 的 那 一 类 中 : 


1 


Xjy 表 示 第 i 个 观测 值 中 第 个 变量 的 值 。t, 表示 第 x 个 类 中 第 /个 变量 的 均值 ,其 中 p 是 变量 的 个 
数 。 

KK 均值 聚 类 能 处 理 比 层次 聚 类 更 大 的 数据 集 。 男 外 ， 观 测 值 不 会 永远 被 分 到 一 类 中 。 当 我 们 
提高 整体 解决 方案 时 ， 聚 类 方案 也 会 改动 。 但 是 均值 的 使 用 意味 着 所 有 的 变量 必须 是 连续 的 ,并 
且 这 个 方法 很 有 可 能 被 异常 值 影响 。 它 在 非 凸 聚 类 ( 例如 U 型 ) 情况 下 也 会 变 得 很 差 。 

在 R 中 K 均 值 的 图 数 格 式 是 kmeans (x, centers) ， 这 里 x 表 示 数 值 数 据 集 〈 和 矩阵 或 数据 框 )， 
centers 是 要 提取 的 聚 类 数目 。 冰 数 返回 类 的 成 员 、 类 中 心 、 平 方 和 (类 内 平方 和 、 类 间 平 方 和 、 
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总 平方 和 ) 和 类 大 小 。 

由 于 K 均 值 聚 类 在 开始 要 随机 选择 k 个 中 心 点 , 在 每 次 调用 函数 时 可 能 获得 不 同 的 方案 。 使 用 
set .seed() 函数 可 以 保证 结果 是 可 复制 的 。 此 外 ， 聚 类 方法 对 初始 中 心 值 的 选择 也 很 敏感 。 
kmeans () 图 数 有 一 个 nstart 选 项 尝试 多 种 初始 配置 并 输出 最 好 的 一 个 。 例 如 , 加 上 nstart=25 
会 生成 25 个 初始 配置 。 通 常 推荐 使 用 这 种 方法 。 

不 像 层 次 聚 类 方法 ，K 均 值 聚 类 要 求 你 事先 确定 要 提取 的 聚 类 个 数 。 同 样 ，Nbclust 包 可 以 
用 来 作为 参考 。 另 外 ， 在 K 均 值 聚 类 中 ， 类 中 总 的 平方 值 对 聚 类 数量 的 曲线 可 能 是 有 帮助 的 。 可 
根据 图 中 的 弯曲 ( 类似 于 14.2.1 节 描述 的 卵石 试验 弯曲 ) 选择 适当 的 类 的 数量 。 

图 像 可 以 用 下 面 的 代码 产生 : 

wssplot <- function(data, nc=15, seed=1234){ 

wss <- (nrow(data)-1)*sum(apply (data,2,var)) 
for (i in 2:nc)1 
set.seed (seed) 
wss[i] <- sum(kmeans (data, centers=i) S$withinss)} 


plot(l:nc, wss, type="b", xlab="Number of Clusters", 
ylab="Within groups sum of squares")} 


data 参 数 是 用 来 分 析 的 数值 数据 ，nc 是 要 考虑 的 最 大 聚 类 个 数 ， 而 seed 是 一 个 随机 数 
种 子 。 

让 我 们 用 KK 均值 聚 类 来 处 理 包 含 178 种 意大利 葡 菊 酒 中 13 种 化 学 成 分 的 数据 集 。 该 数据 最 初 
来 自 于 UCI 机 器 学 习 库 (http:/www.ics.uci.edu/~mlearn/MLRepository.html ), 但 是 可 以 通过 rattle 
包 获 得 。 在 这 个 数据 集 里 ， 观 测 值 代表 三 种 葡萄 酒 的 品种 ,由 第 一 个 变量 ( 类 型 ) 表示 。 你 可 以 
放弃 这 一 变量 ， 进 行 聚 类 分 析 ， 看 看 是 否 可 以 恢复 已 知 的 结构 。 


代码 清单 16-4 ”和 葡萄酒 数据 的 K 均 值 聚 类 
> data (wine, package="rattle") 
> head (wine) 



















































































Type Alcohol Malic Ash Alcalinity Magnesium Phenols Flavanoids 


1 1 Ta23 3 LS:6 下 2 2.80 3.06 
2 1 L320 ‘Ls78. 2 7514 开场 100 2.65 2.76 
3 1 L316. a 2. 36. 267 18.6 101 Zi80 3.24 
4 人 L437 195 2.550 16.8 113 3385 3.49 
S 1 13%24 T2359. 22.587 2 0 118 2.80 2 7509 
6 1 14145207 T6224 ED:.2 131:2 全 全 人 3339 
> df <- scale(wine[-1]) 
6 标准 化 数据 
Nonflavanoids Proanthocyanins Color Hue Dilution Proline 

1 0.28 2:329 5.64 1.04 3%92 1065 

2 Qn 1.28 48 .05 3 1050 

0.30 2538 工 S68 L503 3 二 7 二 185 

4 0.24 2.18 F800. O86 3.45 1480 

5 0.39 1.82 4.32 1.04 2.93 73.5 

6 0.34 TQ: G5 LOS 2.85 1450 





352 第 16 章 聚 类 分 析 





wssplot (df) 

library (NbClust) 

set .seed (1234) 决定 聚 类 的 
devAskNewPage (ask=TRUE) 个 数 

nc <- NbClust (df, min.nc=2, max.nc=15, method="kmeans") 
table(ncsBest.n[1,]) 


V Vv VVvyV 


0 2 -38 T31415 
2 37 Td 2 


> barplot (table (nc$sBest.n[1,1]), 
xlab="Number of Clusters", ylab="Number of Criteria", 


main="Number of Clusters Chosen by 26 Criteria") 


> set.seed(1234) 


> fit.km <- kmeans (df, 3, nstart=25) 进行 K 均 值 
> fit.kmssize 聚 类 分 析 
[1] 62 65 51 


> fit.km$centers 


Alcohol Malic Ash Alcalinity Magnesium Phenols Flavanoids Nonflavanoids 


外 0583 030 36 =0..6T 0.576 0.883 90559375 0.,561 
-0#92 =0%39. -0%49 0.17 -0.490 ~0.076 0.021 =0.033 
3 0.a16 20587 0519 0:52 =0.:075. =0..977 -1.212 O3724 
Proanthocyanins Color Hue Dilution Proline 
由 O59 OB Od 0.78 J 这 
0.058 -0.90 0.46 De 二 0 了 5 
3 0% 7 8 0F94 116 = 和 29 -0.41 


> aggregate(wine[-1], by=list(cluster=fit.km$cluster), mean) 


cluster Alcohol Malic Ash Alcalinity Magnesium Phenols Flavanoids 


1 全 14 882.4 17 106 ZB 3 但 
2 处 电 2 20 88 De 2.50 
3 13 B20 2 97 1.6 DY 
Nonflavanoids Proanthocyanins Color Hue Dilution Proline 
O02:9 9 5.4 1.07 3»2 1072 
Des 1.6 2.5 9 ;04 2 495 
3 0.47 1.1 Se Ly 620 


因为 变量 值 变 化 很 大 , 所 以 在 聚 类 前 要 将 其 标准 化 @。 下 一 步 , 使 用 wssplot () 和 Nbclust () 
函数 确定 聚 类 的 个 数 @.。 图 16-4 表 示 从 一 类 到 三 类 变化 时 ,组 内 的 平方 总 和 有 一 个 明显 的 下 降 趋 
势 。 三 类 之 后 ,下 降 的 速度 减弱 ， 上 暗示 着 聚 成 三 类 可 能 对 数据 来 说 是 一 个 很 好 的 拟 合 。 在 图 16-5 
中 ，Nbclust 包 中 的 24 种 指标 中 有 14 种 建议 使 用 类 别 数 为 三 的 聚 类 方案 。 需 要 注意 的 是 并 非 30 
个 指标 都 可 以 计算 每 个 数据 集 。 
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1500 2000 


Within groups sum of squares 
1000 








Number of Clusters 


EF 方 和 和 提取 的 聚 类 个 数 的 对 比 。 从 一 类 到 三 类 下 降 得 很 快 (之 
后 下 降 得 很 慢 ) ， 建 议 选 用 聚 类 个 数 为 三 的 解决 方案 





10 12 14 


Number of Criteria 
4 6 8 


2 




















Number of Clusters Chosen by 26 Criteria 


| 本 | | Ed Ed Ed ed 
0 1 2 3 10 4 14 协 
Number of Clusters 














NbCclust 包 中 的 26 个 指标 推荐 的 聚 类 个 数 








使 用 kmeans () 函数 得 到 的 最 终 聚 类 中 ， 聚 类 中 心 也 被 输出 了 全 。 因 为 输出 的 聚 类 中 心 是 基 
于 标准 化 的 数据 ， 所 以 可 以 使 月 











月 aggregate () 函数 和 类 的 成 员 来 得 到 原始 和 矩阵 中 每 一 类 的 变量 





K 均 值 可 以 很 好 地 揭示 类; 
员 由 下 面 的 代码 表示 : 








量 中 真正 的 数据 结构 吗 ? 交叉 列表 类 型 ( 葡萄 酒 品种 ) 和 类 成 


> ct.km <- table(winesType, fit.kmscluster) 
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你 可 以 用 flexclust 包 中 的 兰 德 指数 (Rand index ) 来 量化 类 型 变量 和 类 之 间 的 协议 : 


> library (flexclust) 
> randIindex (ct .km) 
[1] 0.897 


调整 的 兰 德 指数 为 两 种 划分 提供 了 一 种 衡量 两 个 分 区 之 间 的 协定 , 即 调整 后 机 会 的 量度 。 它 
的 变化 范围 是 从 -1〈 不 同意 ) 到 1 (完全 同意 )。 和 葡萄 酒 品种 类 型 和 类 的 解决 方案 之 间 的 协定 是 
0.9。 结 果 不 坏 ， 那 我 们 应 该 喝 点 酒 ? 


16.4.2 ”围绕 中 心 点 的 划分 


因为 K 均 值 聚 类 方法 是 基于 均值 的 ， 所 以 它 对 异常 值 是 敏感 的 。 一 个 更 稳健 的 方法 是 围绕 中 
心 点 的 划分 (PAM )。 与 其 用 质心 ( 变量 均值 向 量 ) 表示 类 ， 不 如 用 一 个 最 有 代表 性 的 观测 值 来 
表示 〈 称 为 中 心 点 )。K 均 值 聚 类 一 般 使 用 欧 几 里 得 距离 ， 而 PAM 可 以 使 用 任意 的 距离 来 计算 。 
因此 ，PAM 可 以 容纳 混合 数据 类 型 ， 并 且 不 仅 限于 连续 变量 。 

PAM 算 法 如 下 : 

(1) 随机 选择 K 个 观测 值 〈 每 个 都 称 为 中 心 点 ); 

(2) 计算 观测 值 到 各 个 中 心 的 距离 / 相 异 性 ; 

(3) 把 每 个 观测 值 分 配 到 最 近 的 中 心 点 ; 

(4) 计算 每 个 中 心 点 到 每 个 观测 值 的 距离 的 总 和 ( 总 成 本 ); 

(5) 选择 一 个 该 类 中 不 是 中 心 的 点 ， 并 和 中 心 点 互 换 ; 

(6) 重新 把 每 个 点 分 配 到 距 它 最 近 的 中 心 点 ; 

(7) 再 次 计算 总 成 本 ; 

(8) 如 果 总 成 本 比 步骤 (4) 计 算 的 总 成 本 少 ， 把 新 的 点 作为 中 心 点 ; 

(9) 重复 步 又 (5) ~ (8) 直 到 中 心 点 不 再 改变 。 

在 PAM 方 法 中 应 用 基础 数学 的 一 个 例子 可 以 在 这 里 找到 : http://en.wikipedia.org/wiki/k- 
medoids( 我 不 经 常 引 用 维基 百科 ， 但 这 确实 是 一 个 很 好 的 例子 )。 

你 可 以 使 用 cluster 包 中 的 pam() 函数 使 用 基于 中 心 点 的 划分 方法 。 格 式 是 pam(x， 天 ， 
metric="euclidean"，stand=FALSE) ， 这 里 的 x 表示 数据 矩阵 或 数据 框 ，k 表 示 限 类 的 个 数 ， 
metric 表 示 使 用 的 相似 性 / 相 异 性 的 度量 ， 而 stand 是 一 个 逻辑 值 ， 表 示 是 否 有 变量 应 该 在 计算 
该 指标 之 前 被 标准 化 。 图 16-6 中 列 出 了 使 用 PAM 方 法 处 理 葡萄 酒 的 数据 。 
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Bivariate Cluster Plot 
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: 涟 -2 0 2 4 
Component 1 


这 两 个 成 分 解释 了 55.41% 的 可 能 性 
图 16-6 ”基于 意大利 葡萄 酒 数据 使 用 AM 算法 得 到 的 三 组 聚 类 图 
































代码 清单 16-5 ”对 和 葡萄 酒 数据 使 用 基于 质心 的 划分 方法 


> library (cluster) 





> set.seed(1234) 聚 类 数据 的 的 标准 化 
> fit.pam <- pam(wine[-1], k=3, stand=TRUE) 本 
> fit.pam$smedoids 
办 输出 中 心 点 
Alcohol Malic Ash Alcalinity Magnesium Phenols Flavanoids 
[2 oe 于 有 1 从 和 20.5 100 2570 2 和 
[E25 2 1 于 亲人 3 2 19.0 80 L365 2503 
[3， 13.4 3.91 2.48 23 .0 102 1.80 Qs 
Nonflavanoids Proanthocyanins Color Hue Dilution Proline 
Ely Qi26 1.86 Ls Wt eo 3 .7 920 四 
E27 0.37 .263 3 二 00 3:517 Bb.0 i 
[By 0.43 Tu4E i lA! 1 -56 750 的 方案 
> clusplot (fit.pam, main="Bivariate Cluster Plot") a 


























注意 , 这 里 得 到 的 中 心 点 是 葡萄 酒 数 据 集 中 实际 的 观测 值 。 在 这 种 情况 下 , 分 别 选 择 36、107 
和 175 个 观测 值 来 代表 三 类 。 通 过 从 13 个 测定 变量 上 得 到 的 前 两 个 主 成 分 绘制 每 个 观测 的 坐标 来 
创建 二 元 图 ( 参见 第 14 章 )。 每 个 类 用 包含 其 所 有 点 的 最 小 面积 的 椭圆 表示 。 

还 需要 注意 的 是 ，PAM 在 如 下 例子 中 的 表现 不 如 K 均 值 : 


> ct.pam <- table(winesType, fit.pam$clustering) 











Ep 2 3 
9 0 "© 
2 6 Dh) 1 
3 0 147 


> randIindex (ct .pam) 
EL”00699 


调整 的 兰 德 指 数 从 (均值 的 ) 0.9 下 降 到 了 0.7。 


16.5 ”避免 不 存在 的 类 


在 结束 讨论 前 ， 还 要 提出 一 点 注意 事项 。 聚 类 分 析 是 一 种 旨 在 识别 数据 集 子 组 的 方法 ,并 且 
在 此 方面 十 分 擅长 。 事 能 发 现 不 存在 的 类 。 

请 看 以 下 的 代码 : 

library (fMultivar) 

set.seed(1234) 

df <=, TNOrm2d.(1000, Tho=:5) 


df <- as.data.frame (df) 
plot (df, main="Bivariate Normal Distripbution with rho=0.5") 


fMultivar 包 中 的 rnorm2G() 函数 用 来 从 相关 系数 为 0.5 的 二 元 正 态 分 布 中 抽取 1000 个 观测 
值 。 所 得 的 曲线 显示 在 图 16-7 中 。 很 显然 ， 数据 中 没有 类 。 
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Bivariate Normal Distribution with rho=0.5 
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图 16-7 ”二 元 正 态 数 据 (样本 量 n=1000 ) ， 该 数据 集中 无 类 
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随后 ， 使 用 wssplot () 和 Nbclust () 函数 来 确定 当前 聚 类 的 个 数 ; 


wssplot (df) 

library (NbClust) 

nc <- NbClust (df, min.nc=2, max.nc=15, method="kmeans") 

dev .new!() 

barplot (table(ncsBest.n[1,]), 
xlab="Number of Clusters", ylab="Number of Criteria", 
main="Number of Clusters Chosen by 26 Criteria") 


结果 展示 在 图 16-8 和 图 16-9 中 。 
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Number of Clusters 


图 16-8 二 元 数据 的 组 内 平方 和 和 K 均 值 聚 类 个 数 的 对 比 





Number of Clusters Chosen by 26 Criteria 


Number of Criteria 
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J 


Number of Clusters 
图 16-9 使 用 Nbclust 包 中 的 判别 准则 推荐 的 二 元 数据 的 聚 类 数据 ， 推 荐 的 类 数 为 2 
或 3 
wssplot () 函数 建议 聚 类 的 个 数 是 3， 然 而 Nbclust 函 数 返 回 的 准则 多 数 支持 2 类 或 3 类 。 如 
果 利 用 PAM 法 进行 双 聚 类 分 析 : 
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library (ggplot2) 
library (cluster) 
fit <- pam(df, k=2) 


dfsclustering <- factor (fits$clustering) 


ggplot (data=df, aes (x=V1, 
geom point() 


你 将 得 到 如 图 16-10 所 示 的 双 聚 类 图 像 (ggplot () 函数 是 综合 图 像 ggplot2 包 的 一 部 分 ,多 


19 章 包含 ggp1lot2 的 详细 内 容 )。 


Clustering of Bivariate Normal Data 


y=V2, color=clustering, 
+ ggtitle("Clustering of Bivariate Normal Data") 


shape=clustering)) + 











Clustering 
.|1 
2 








图 16-10 ”对 于 二 元 数据 的 PAM 育 类 分 析 ， 提 取 两 类 。 注 意 类 中 的 数据 任意 分 割 


CCC 


图 16-11 


md 
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Number of clusters 








10 12 14 





二 元 正 态 数据 的 CCC 图 ， 它 正确 地 表明 没有 类 存在 





du 
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很 明显 划分 是 人 为 的 。 实际 上 在 这 里 没有 真实 的 类 。 那么 你 怎样 避免 这 种 错误 呢 ? 虽然 并 非 
万 无 一 失 ， 但 是 我 发 现 Npclust 包 中 的 立方 聚 类 规则 ( Cubic Cluster Criteria，CCC ) 往往 可 以 帮 
助 我 们 揭示 不 存在 的 结构 。 代 码 是 : 


plot (nc$All.index[,4], type="o", ylab="CCC", 
xlab="Number of clusters", col="blue") 


结果 展示 在 图 16-11 中 。 当 CCC 的 值 为 负 并 且 对 于 两 类 或 是 更 多 的 类 递减 时 ， 就 是 典 ] 

聚 类 分 析 (或 你 对 它 的 解读 ) 找到 错误 聚 类 的 能 力 使 得 聚 类 分 析 的 验证 步骤 很 重要 。 如 果 你 
试图 找 出 在 某 种 意义 上 “真实 的 ”类 ( 而 不 是 一 个 方便 的 划分 )， 就 要 确保 结果 是 稳健 的 并 且 是 
可 重复 的 。 你 可 以 尝试 不 同 的 聚 类 方法 ， 并 用 新 的 样本 复制 结果 。 如 果 同 一 类 持续 复原 ， 你 就 可 
以 对 得 出 的 结果 更 加 自信 。 
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16.6 小结 


在 这 一 章 里 ,我 们 回顾 了 把 观测 值 凝 聚 成 子 组 的 常见 聚 类 方法 。 首 先 , 我 们 回顾 了 常见 聚 类 
分 析 的 一 般 步骤 。 接 下 来 ,描述 了 层次 聚 类 和 划分 聚 类 的 第 见方 法 。 最 后 ， 如 果 寻 求 的 不 只 是 更 
方便 的 划分 方法 ， 我 强调 了 需要 验证 所 产生 的 类 。 

聚 类 分 析 是 一 个 宽泛 的 话题 ， 而 R 有 一 些 最 全 面 的 方案 来 实施 现 有 的 方法 。 想 要 了 解 更 多 ， 
可 以 参考 CRAN 任 务 视图 的 聚 类 分 析 和 有 限 混合 模型 部 分 〈http:/cran.r-project.org/web/views/ 
Clusterhtml )。 

除 此 之 外 ，Tan 、Steinbach 多 Kumar ( 2006 ) 写 了 一 本 关于 数据 挖掘 技术 的 好 书 。 它 有 一 章 
清晰 地 讲解 了 聚 类 分 析 ， 可 以 自由 下 载 (www-users.cs.umn.edu/~kumar/dmbook/ch8.pdf )。 最 后 ， 
Everitt、Landau 、Leese & Stahl ( 2011 ) 就 这 个 问题 写 了 一 本 实用 性 的 课本 ， 评 价 很 高 。 

聚 类 分 析 方 法 用 于 发 现 数据 集中 有 族 聚 力 的 观测 值 分 组 。 在 下 一 章 中 , 我 们 将 考虑 已 经 定义 
好 分 组 的 情况 ， 你 的 目标 是 用 一 个 准确 的 方法 把 观测 值 分 人 这 些 组 。 
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本 章 内 容 

口 用 决策 树 进行 分 类 

口 用 随机 森林 进行 集成 分 类 
口 生成 支持 向 量 机 模型 

口 评价 分 类 准确 性 





数据 分 析 师 经 常 需 要 基于 一 组 预测 变量 预测 一 个 分 类 结果 ， 如 : 

口 根据 个 人 信息 和 财务 历史 记录 预测 其 是 否 会 还 贷 ; 

口 根据 重症 病人 的 症状 和 生命 体征 判断 其 是 否 为 心脏 病 发 作 ; 

口 根据 关键 词 、 图 像 、 超 文本 、 主 题 栏 、 来 源 等 判别 一 封 邮件 是 否 为 病毒 邮件 。 

上 上 述 例子 的 共同 点 是 根据 一 组 预测 变量 〈 或 特征 ) 来 预测 相对 应 的 二 分 类 结果 ( 无 信用 风 
险 / 有 信用 风险 ， 心 脏 病 发 作 /心脏 病 未 发 作 ， 是 病毒 邮件 /不 是 病毒 邮件 )， 目 的 是 通过 某 种 方法 
实现 对 新 出 现 单元 的 准确 分 类 。 

有 监督 机 融 学 习 领 域 中 包含 许多 可 用 于 分 类 的 方法 ， 如 逻辑 回归 、 决 策 树 、 随 机 和 森林、 支持 
向 量 机 、 神 经 网 络 等 。 本 章 将 着 重 探讨 前 四 种 方法 ， 神 经 网 络 超出 了 本 书 的 范围 。 

有 监督 学 习 基 于 一 组 包含 预测 变量 值 和 输出 变量 值 的 样本 单元 。 将 全 部 数据 分 为 一 个 训练 集 
和 一 个 验证 集 ， 其 中 训练 集 用 于 建立 预测 模型 ， 验 证 集 用 于 测试 模型 的 准确 性 。 对 训练 集 和 验证 
集 的 划分 尤其 重要 , 因为 任何 分 类 技术 都 会 最 大 化 给 定数 据 的 预测 效果 。 用 训练 集 建立 模型 并 测 
试 模型 会 使 得 模型 的 有 效 性 被 过 分 夸大 , 而 用 单独 的 验证 集 来 测试 基于 训练 集 得 到 的 模型 则 可 使 
得 估计 更 准确 、 更 切合 实际 。 得 到 一 个 有 效 的 预测 模型 后 ,就 可 以 预测 那些 只 知道 预测 变量 值 的 
样本 单元 对 应 的 输出 值 了 。 

本 草 将 通过 rpart 、rpart.plot 和 party 包 来 实现 决策 树 模型 及 其 可 视 化 ， 通 过 
ranqomForest 包 拟 合 随机 森林 ， 通 过 el071 包 构造 支持 向 量 机 ， 通 过 R 中 的 基本 函数 glm() 实 
现 逻 辑 回 归 。 在 正式 开始 前 ， 请 先 确保 计算 机 中 已 安装 必 备 的 程序 包 : 

Dkgs: < G(rIDart"y "rhoadrt blot, "Party"s, 


"randomForest", "e1071") 
install.packages (pkgs, depend=TRUE) 
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本 章 的 主要 例子 来 源 于 UCI 机 器 学 习 数 据 库 中 的 威斯康星 州 乳腺 癌 数 据 。 数 据 分 析 的 目的 是 
根据 细胞 组 织 细 针 抽 吸 活检 所 反映 的 特征 , 来 判断 被 检 者 是 否 患 有 乳腺 癌 〈( 细胞 组 织 样本 单元 由 
空心 细 针 在 皮下 肿块 中 抽 得 )。 

17.1 数据 准备 

威斯康星 州 乳腺 癌 数 据 集 是 一 个 由 有 逗号 分 隔 的 txt 文 件 ， 可 在 UCI 机 器 学 习 数 据 库 
( http://archive.ics.uci.edu/ml ) 中 找到 。 本 数据 集 包 含 699 个 细 针 抽 吸 活检 的 样本 单元 ， 其 中 458 个 
( 65.5% ) 为 良性 样本 单元 ，241 个 (34.5% ) 为 恶性 样本 单元 。 数 据 集中 共有 11 个 变量 , 表 中 未 标 
明 变 量 名 。 共 有 16 个 样本 单元 中 有 缺失 数据 并 用 问号 (? ) 表示 。 

数据 集中 包含 的 变量 包括 : 

DID 

口 肿块 厚度 

口 细胞 大 小 的 均匀 性 
口 细胞 形状 的 均匀 性 
D 边际 附着 力 

口 单个 上 皮 细 胞 大 小 
口 裸 核 

口 乏味 染色 体 

口 正常 核 

口 有 丝 分 裂 

口 类 别 

第 一 个 变量 ID 不 纳入 数据 分 析 ， 最 后 一 个 变量 (类别 ) 即 输出 变量 〈 编码 为 良性 =2 ， 恶 性 =4 )。 

对 于 每 一 个 样本 来 说 ， 另 外 九 个 变量 是 与 判别 恶性 肿瘤 相关 的 细胞 特征 ， 并 且 得 到 了 记录 。 
这 些 细 胞 特征 得 分 为 1 ( 最 接近 良性 ) 至 10 (最 接近 病变 ) 之 间 的 整数 。 任 一 变量 都 不 能 单独 作 
为 判别 良性 或 恶性 的 标准 , 建 模 的 目的 是 找到 九 个 细胞 特征 的 某 种 组 合 ， 从 而 实现 对 恶性 肿瘤 的 
准确 预测 。Mangasarian 和 Wolberg 在 其 1990 年 的 文章 中 详细 探讨 了 这 个 数据 集 。 

下 面 给 出 R 中 数据 准备 流程 。 数 据 从 UCI 数 据 库 中 抽取 ， 并 随机 分 出 训练 集 和 验证 集 ， 其 中 
训练 集中 包含 499 个 样本 单元 ( 占 70% ), 其 中 良性 样本 单元 329 个 , 恶性 160 个 ; 验证 集中 包含 210 
个 样本 单元 ( 占 30% )， 其 中 良性 129 个 ， 恶 性 81 个 。 


代码 清单 17-1 乳腺 癌 数 据 准备 
loc <- "http://archive.ics.uci.edu/ml/machine-learning-databases/" 
ds <- "breast-cancer-wisconsin/breast-cancer-wisconsin.data" 
url <- pastel(loc, ds, sep="") 























































































































breast <- read.table(url, sep=",", header=FALSE, na.strings="?") 
names (breast) <- c("ID", "clumpThickness", "sizeUniformity", 
"shapeUniformity", "maginalAdhesion", 
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df <- breast[-1] 


dfsclass <- factor(dfs$sclass, 


"singleEpithelialCellSize", "bareNuclei", 

"blandChromatin", "normalNucleoli", "mitosis", "class") 
levels=c(2,4), 

labels=c("benign", "malignant")) 


set.seed(1234) 

train <- sample (nrow(df), 
df.train <- df[ltrain,] 
df.validate <- df[-train, 
table(df.train$class) 
table(df.validate$sclass) 








训练 集 将 用 于 建立 逻辑 回归 、 


0.7*nrow (df) 


] 


决策 树 、 条 件 推断 树 、 随 机 森林 、 A 





试 集 用 于 评估 各 个 模型 的 有 效 性 。 本 章 采用 相同 的 数据 集 ， 因 此 可 以 直接 比较 各 个 方法 的 结 


17.2 ”逻辑 回归 


逻辑 回归 (logistic regression ) 是 广义 线性 模 
(13.2 节 有 详细 介绍 ), R 中 的 基本 消 数 glm( 











型 的 一 种 ， 可 根据 一 
) 可 用 于 拟 合 逻辑 回归 模型 。g1lm () 








量 中 的 分 类 变量 编码 为 相应 的 虚拟 变量 。 








因此 不 必要 对 其 编码 。 下 面 给 出 R 中 逮 辑 回归 流程 。 


代码 清单 17-2 使 用 glm() 


>° fit Ogit: < "glm (ola 


> summary (fit.1logit) 


Calls 
glm(formula = class ~ .， 
Deviance Residuals: 

Min 10 
2 758L a0:L060 


Coefficients: 


Median 
-0.0568 


进行 逻辑 回归 


,， data=df.train, family=binomial ()) 


6 检查 模型 


family = binomial(), data = df.train) 
30 Max 
0.0124 2.6432 


Estimate Std. Error z value Pr(>|z|) 


(Intercept) 
clumpThickness 
sizeUniformity 
shapeUniformity 
maginalAdhesion 
singleEpithelialCellSize 
bareNucleji 
blandChromatin 
normalNucleoli 
mitosis 


| 


Signif. codes: 0 





-10.4276 1.4760 IH06. rl Ges12 
0.5243 0.L595 B29 O00:0:0 < 交 
-0.0481 05:2.5:71 0 下 9 0.8517 
0.4231 O026737 8 0.1141 
0.2924 0.1469 499 0.0465 * 
,05 0.1798 0.::6 二 9538 
93354 0.1072 3 二 [Od OHO i 汪 帮 
OQ:id235 0.2067 2:05 0.0405 * 
0.2889 0 13.9.9 2.06 0Q303.9.0,'* 
0.6906 053983 了 0.0829 

OE OO A 和 有 0 和 芍 古人 


0 拟 合 逻 辑 回 归 


测 





一 组 数值 变量 预测 二 元 输出 
) 洱 数 自动 将 预测 变 
威斯康星 乳腺 癌 数 据 中 的 全 部 预测 变量 都 是 数值 变量 ， 
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> prob <- predict (fit.logit, df.validate, type="response") 

> logit.pred <- factor(prob > .5, levels=c (FALSE, TRUE), 对 训练 集 集 外 
labels=c("benign", "malignant")) 样本 单元 分 类 

> logit.perf <- table(df.validatesclass, logit.pred, | 四 评估 预测 
qdnn=c("Actual"，"Predictedq" ) ) 准确 性 


> logit.perf 


Predicted 
Actual benign malignant 
benign 118 2 
malignant 4 76 





首先 ， 以 类 别 为 响应 变量 ， 其 余 变 量 为 预测 变量 @。 基 于 af .train 数 据 框 中 的 数据 构造 逻 
辑 回 归 模 型 。 接 着 给 出 了 模型 中 的 系数 @。 系 数 解释 见 13.2 节 。 

接着 ,采用 基于 df .train 建 立 的 模型 来 对 df .validate 数 据 集 中 的 样本 单元 分 类 。 
predict () 函数 默认 输出 肿瘤 为 恶性 的 对 数 概率 ， 指 定 参数 Lype="response" 即 可 得 到 预测 肿 
瘤 为 恶性 的 概率 全。 样本 单元 中 ， 概 率 大 于 0.5 的 被 分 为 恶性 肿瘤 类 ， 概 率 小 于 等 于 0.5 的 被 分 为 
良性 肿瘤 类 。 

最 后 给 出 预测 与 实际 情况 对 比 的 交叉 表 ( 即 混淆 短 阵 ，confusion matrix ) @。 模 型 正确 判别 
了 118 个 类 别 为 良性 的 患者 和 76 个 类 别 为 恶性 的 患者 。 男 外 ，df .validate 数 据 集中 有 10 个 样本 
单元 因 包含 缺失 数据 而 无 法 判别 。 

在 验证 集 上 ， 正 确 分 类 的 模型 ( 即 准 确 率 ，accuracy ) 为 (76+118)/200=97% ，17.4 节 中 将 进 
一 步 探讨 评估 模型 有 效 性 的 统计 量 。 

同时 要 注意 的 是 ,模型 中 有 三 个 预测 变量 ( sizeUniformity 、shapeUniformity 和 
singleEpithelialCellSize ) 的 系数 未 通过 显著 性 检验 ( 即 p 值 大 于 0.1 )。 从 预测 的 角度 来 说 ， 
我 们 一 般 不 会 将 这 些 变量 纳入 最 终 模 型 。 当 这 类 不 包含 相关 信息 的 变量 特别 多 时 , 可 以 直接 将 其 
认定 为 模型 中 的 噪声 。 

在 这 种 情况 下 , 可 用 逐步 逻辑 回归 生成 一 个 包含 更 少 解释 变量 的 模型 , 其 目的 是 通过 增加 或 
移 除 变量 来 得 到 一 个 更 小 的 AIC 值 。 具 体 到 这 一 案例 ， 可 通过 : 

logit.fit.reduced <- stepl(fit.1logit) 
来 得 到 一 个 精简 的 模型 。 这 样 ， 上 面 提 到 的 三 个 变量 就 从 最 终 模型 中 移 除 ,这 种 精简 后 的 模型 在 
验证 集 上 的 误差 相对 全 变量 模型 更 小 。 

下 一 节 将 介绍 决策 (分 类 ) 树 模 型 的 构建 。 


17.3 ”决策 树 


决策 树 是 数据 挖掘 领域 中 的 常用 模型 。 其 基本 思想 是 对 预测 变量 进行 二 元 分 离 , 从 而 构造 一 
棵 可 用 于 预测 新 样本 单元 所 属 类 别 的 树 。 本 节 将 介绍 两 类 决策 树 : 经 典 树 和 条 件 推断 树 。 
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17.3.1 经 典 决策 树 


经 典 决策 树 以 一 个 二 元 输出 变量 ( 对 应 威斯康星 州 乳腺 癌 数 据 集中 的 良性 /恶性 ) 和 一 组 预 
测 变 量 (对 应 九 个 细胞 特征 ) 为 基础 。 具 体 算法 如 下 。 

(1) 选 定 一 个 最 佳 预测 变量 将 全 部 样本 单元 分 为 两 类 ， 实 现 两 类 中 的 纯度 最 大 化 即 一 类 中 
良性 样本 单元 尽 可 能 多 ， 另 一 类 中 恶性 样本 单元 尽 可 能 多 )， 如 果 预 测 变量 连续 ， 则 选 定 一 个 分 
割 点 进行 分 类 ， 使 得 两 类 纯度 最 大 化 ; 如 果 预 测 变量 为 分 类 变量 ( 本 例 中 未 体现 )， 则 对 各 类 别 
进行 合并 再 分 类 。 

(2) 对 每 一 个 子 类 别 继续 执行 步 又 (D。 

(3) 重复 步 又 (1)~(2)， 直 到 子 类 别 中 所 含 的 样本 单元 数 过 少 ， 或 者 没有 分 类 法 能 将 不 纯度 下 
降 到 一 个 给 定 阔 值 以 下 。 最 终 集中 的 子 类 别 即 终端 节点 ( terminal node )。 根据 每 一 个 终端 节点 中 
样本 单元 的 类 别 数 众 数 来 判别 这 一 终端 节点 的 所 属 类 别 。 

(4) 对 任 一 样本 单元 执行 决策 树 , 得 到 其 终端 节点 , 即 可 根据 步骤 3 得 到 模型 预测 的 所 属 类 别 。 

不 过 ， 上述 算法 通常 会 得 到 一 棵 过 大 的 树 ， 从 而 出 现 过 拟 合 现象 。 结 果 就 是 ， 对 于 训练 集 外 
单元 的 分 类 性 能 较 差 。 为 解决 这 一 问题 ,可 采用 10 折 交叉 验证 法 选择 预测 误差 最 小 的 树 。 这 一 前 
枝 后 的 树 即 可 用 于 预测 。 

R 中 的 rpart 包 支持 rpart () 函数 构造 决策 树 ，prune () 函数 对 决策 树 进行 剪 枝 。 下 面 给 出 
判别 细胞 为 良性 或 恶性 的 决策 树 算法 实现 。 


代码 清单 17-3 ”使 用 rpart () 函数 创建 分 类 决策 树 
> library (rpart) 
set.seed(1234) 
dtree <- rpart(class ~ ., data=df.train, method="class", | 网 sa 
parms=list (split="information")) 

























































































VV 


> dtreescptable 

CP nsplit rel error xerror XStLd 
1 0.800000 0 1.00000 1.00000 0.06484605 
2 0.046875 J 0.20000 0.30625 0.04150018 
3.080L2500 3 0.10625 0.20625 0.03467089 
4 0.010000 4 0.09375 0.18125 0.03264401 


V 


plotcp (dtree) 


dtree.pruned <- prune(dtree, cp=.0125) 
6 


library (rpart .plot) 
prp(dtree.pruned, type = 2, extra = 104, 
fallen.leaves = TRUE, main="Decision Tree") 


V 


VV 


> dtree.pred <- predict (dtree.pruned, df.validate, type="class") 
> dtree.perf <- table(df.validatesclass, dtree.pred, “6 对 训练 集 外 样 
dnn=c("Actual", "Predicted")) 本 单元 分 类 


V 


dtree.perf 
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Predicted 
Actual benign malignant 
benign 122 7 
malignant 2 49 





首先 ，rpart () 函数 可 用 于 生成 决策 树 @。print (dtree) 和 summary (dtree) 可 用 于 观测 
所 得 模型 ， 此 时 所 得 的 树 可 能 过 大 ， 需 要 剪 枝 。 
rpart () 返 回 的 cptable 值 中 包括 不 同 大 小 的 树 对 应 的 预测 误差 , 因此 可 用 于 辅助 设 定 最 终 
的 树 的 大 小 。 其 中 ， 复 杂 度 参数 (cp ) 用 于 惩罚 过 大 的 树 ; 树 的 大 小 即 分 支 数 (nsplit )， 有 nn 
个 分 支 的 树 将 有 n+1 个 终端 节点 ; rel error 栏 即 训 练 集中 各 种 树 对 应 的 误差 ， 交 又 验证 误差 
( xerror ) 即 基 于 训练 样本 所 得 的 10 折 交叉 验证 误差 ;xsta 栏 为 交 又 验证 误差 的 标准 差 。 
借助 plotcp () 函数 可 画 出 交 又 验证 误差 与 复杂 度 参 数 的 关系 图 ( 如 图 17-1 所 示 )。 对 于 所 有 
交叉 验证 误差 在 最 小 交叉 验证 误差 一 个 标准 差 范围 内 的 树 ， 最 小 的 树 即 最 优 的 树 。 
树 的 大 小 






































交叉 验证 误 交 
0.6 





Inf 0.19 0.024 0.011 

















图 17-1 ”复杂 度 参 数 与 交 又 验证 误差 。 虚 线 是 基于 一 个 标准 差 准 则 得 到 的 上 限 
(0.18+1x0.0326=0.21 ) 。 从 图 像 来 看 ， 应 选择 虚线 下 最 左 侧 cp 值 对 应 的 树 


本 例 中 ， 最 小 的 交叉 验证 误差 为 0.18， 标 准 误差 为 0.0326， 则 最 优 的 树 为 交叉 验证 误差 在 
0.18+0.0326 (0.15 和 0.21 ) 之 间 的 树 。 由 代码 清单 17-3 的 cptable 表 可 知 ， 四 个 终端 节点 ( 即 三 
次 分 割 ) 的 树 满足 要 求 ( 交叉 验证 误差 为 0.206 25 ); 根据 图 17-1 也 可 以 选 得 最 优 树 ， 即 三 次 分 割 
(四 个 节点 ) 对 应 的 树 。 

在 完整 树 的 基础 上 ,pzrune () 函数 根据 复杂 度 参 数 剪 掉 最 不 重要 的 枝 , 从 而 将 树 的 大 小 控 币 
在 理想 范围 内 。 从 代码 清单 17-3 的 cptapble 中 可 以 看 到 ， 三 次 分 割 对 应 的 复杂 度 参 数 为 0.0125 ， 
从 而 prune (dtree，cp=0.0125) 可 得 到 一 个 理想 大 小 的 树 合 。 

rpart .plot 包 中 的 prp () 函数 可 用 于 画 出 最 终 的 决策 树 , 如 图 17-2 所 示 。prp () 函数 中 有 许 
多 可 供 选 择 的 参数 ( 详 见 ?prp )， 如 type=2 可 夯 出 每 个 节点 下 分 割 的 标签 ，extra=104 可 夯 出 
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每 一 类 的 概率 以 及 每 个 节点 处 的 样本 占 比 ，fallen .leaves=TRUE 可 在 图 的 底 端 显示 终端 闻 点 。 
对 观测 点 分 类 时 ， 从 树 的 顶端 开始 ， 若 满足 条 件 则 从 左 枝 往 下 ， 和 否则 从 右 枝 往 下 , 重复 这 个 过 程 
直到 磁 到 一 个 终端 节点 为 止 。 该 终端 节点 即 为 这 一 观测 点 的 所 属 类 别 。 
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决策 树 


良性 
0.67 0.33 
100% 


SizeUnif < 3.5 





















shapeUni < 2.5 
































图 17-2 用 剪 枝 后 的 传统 决策 树 预测 癌症 状态 。 从 树 的 顶端 开始 ， 如 果 条 件 成 立 则 从 
左 枝 往 下 ,否则 从 右 枝 往 下 。 当 观测 点 到 达 终端 节点 时 ， 分 类 结束 ,每 一 个 节 
点 处 都 有 对 应 类 别 的 概率 以 及 样本 单元 的 占 比 




















最 后 , predict () 函数 用 来 对 验证 集中 的 观测 点 分 类 合 。 代码 清单 17-3 给 出 了 实际 类 别 与 预 
测 类 别 的 交叉 表 。 整 体 来 看 ， 验 证 集中 的 准确 率 达 到 了 96%。 与 逻辑 回归 不 同 的 是 ， 验 证 集中 的 
210 个 样本 单元 都 可 由 最 终 树 来 分 类 。 值得 注意 的 是 , 对 于 水 平 数 很 多 或 缺失 值 很 多 的 预测 变量 ， 
决策 树 可 能 会 有 偏 。 


17.3.2 条件 推 断 树 


在 介绍 随机 森林 之 前 ,我们 先 介 绍 传统 决策 树 的 一 种 重要 变 体 ， 即 条 件 推断 树 ( conditional 
inference tree )。 条 件 推断 树 与 传统 决策 树 类 似 , 但 变量 和 分 割 的 选取 是 基于 显著 性 检验 的 ， 而 不 
是 纯净 度 或 同 质 性 一 类 的 度量 。 显 著 性 检验 是 置换 检验 ( 详 见 第 12 章 )。 

条 件 推 肠 树 的 算法 如 下 。 
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(1) 对 输出 变量 与 每 个 预测 变量 间 的 关系 计算 p 值 。 

(2) 选取 p 值 最 小 的 变量 。 

(3) 在 因 变量 与 被 选中 的 变量 间 尝 试 所 有 可 能 的 二 元 分 割 ( 通过 排列 检验 )， 并 选取 最 显著 的 
(4) 将 数据 集 分 成 两 群 ， 并 对 每 个 子 群 重复 上 述 步 又 。 

(5) 重复 直至 所 有 分 割 都 不 显著 或 已 到 达 最 小 节点 为 止 。 

条 件 推断 树 可 由 party 包 中 的 ctree () 苑 数 获得 。 代 码 清单 17-4 对 乳腺 癌 数 据 生成 条 件 推 断 树 。 





























代码 清单 17-4 使 用 ctree () 函数 创建 条 件 推断 树 
library (party) 
fit.ctree <- ctree(class~., data=df.train) 
plot (fit.ctree, main="Conditional Inference Tree") 





> ctree.pred <- predict (fit.ctree, df.validate, type="response") 
> ctree.perf <- table(df.validates$sclass, ctree.pred, 





dnn=c ("Actual", "Predicted")) 
> ctree.perf 
Predicted 
Actual benign malignant 
benign 于 与 当 
malignant 3 78 








值得 注意 的 是 ， 对 于 条 件 推断 树 来 说 ， 剪 枝 不 是 必需 的 ， 其 生成 过 程 相对 更 自动 化 一 些 。 另 
外 ，party 包 也 提供 了 许多 图 像 参数 。 图 17-3 展 示 了 一 棵 条 件 推断 树 ， 每 个 节点 中 的 阴影 区 域 代 
表 这 个 节点 对 应 的 恶性 肿瘤 比例 。 








用 形 如 ctree() 的 图 展示 rpart () 生 成 的 决策 树 
如 果 你 通过 rpart () 函数 得 到 一 棵 经 典 决策 树 ， 但 想 要 以 图 17-3 的 形式 展示 这 棵 决策 树 ， 
则 可 借助 partykit 包 。 安 装 并 载 入 这 个 包 后 ， 可 通过 plot(as.party(an.rpart.tree) ) 
绘制 想 要 的 图 。 例 如 ， 可 以 尝试 对 代码 清单 17-3 中 生成 的 atree.prunea 画 出 类 似 于 图 17-3 的 
图 ， 并 与 图 17-2 中 的 结果 对 照 。 





尽管 在 这 个 例子 中 , 传统 决策 树 和 条 件 推断 树 的 准确 度 比较 相似 , 但 有 时 它们 可 能 会 很 不 一 
样 。 下 一 节 中 ， 我 们 将 生成 并 组 合 大 量 决 策 树 ， 从 而 对 样本 单元 进行 分 类 。 
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图 17-3 ”乳腺 癌 数 据 的 条 件 推 断 树 


17.4 ”随机 森林 


随机 森林 (random forest ) 是 一 种 组 成 式 的 有 监督 学 习 方法 。 在 随机 森林 中 ， 我 们 同时 
生成 多 个 预测 模型 ， 并 将 模型 的 结果 汇总 以 提升 分 类 准确 率 。Leo Breiman 和 Adele Cutler 在 
http://mng.bz/7Nul 上 有 关于 随机 森林 的 详尽 介绍 。 

随机 森林 的 算法 涉及 对 样本 单元 和 变量 进行 抽样 ,从 而 生成 大 量 决策 树 。 对 每 个 样本 单元 来 
说 , 所 有 决策 树 依 次 对 其 进行 分 类 。 所 有 决策 树 预测 类 别 中 的 众 数 类 别 即 为 随机 森林 所 预测 的 这 
一 样本 单元 的 类 别 。 

假设 训练 集中 共有 N 个 样本 单元 ，M 个 变量 ， 则 随机 森林 算法 如 下 。 

(1) 从 训练 集中 随机 有 放 回 地 抽取 N 个 样本 单元 ， 生 成 大 量 决策 树 。 

(2) 在 每 一 个 节点 随机 抽取 m<M 个 变量 ， 将 其 作为 分 割 该 节点 的 候选 变量 。 每 一 个 节点 处 的 
变量 数 应 一 致 。 

(3) 完整 生成 所 有 决策 树 ， 无 需 剪 枝 ( 最 小 节点 为 1 )。 
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(4) 终端 节点 的 所 属 类 别 由 节点 对 应 的 众 数 类 别 决 定 。 
(5) 对 于 新 的 观测 点 ， 用 所 有 的 树 对 其 进行 分 类 ， 其 类 别 由 多 数 决定 原则 生成 。 


生成 树 时 没有 用 到 的 样本 点 所 对 应 的 类 别 可 由 生成 的 树 估计 , 与 其 真实 类 别 比 较 即 可 得 到 袋 
外 预测 (out-of-bag，OOB ) 误差 。 无 法 获得 验证 集 时 ， 这 是 随机 森林 的 一 大 优势 。 随 机 森林 算 




















法 可 计算 变量 的 相对 重要 程度 ， 这 将 在 下 文中 介绍 。 
randomForest 包 中 的 randomForest () 函数 可 用 于 生成 随机 森林 。 函 数 默 认 生 成 300 棵 树 ， 

并 且 默 认 在 每 个 节点 处 抽取 sart (M) 个 变量 ， 最 小 节点 为 1。 
代码 清单 17-5 给 出 了 用 随机 森林 算法 对 乳腺 癌 数 据 预 测 如 


代码 清单 17-5 “随机 森林 
> library (randomForest) 


> set.seed(1234) 
> fit.forest <- randomForest (class~., data=df.train, 用 生成 森林 





| 


突 


生 类 的 代码 和 结果 。 





5 


na.action=na.roughfix, 
importance=TRUE) 
> fit.forest 





Cob 
randomForest (formula = class ~ ., data = df.train, 
importance = TRUE, na.action = na.roughfix) 
Type of random forest: classification 
Number of trees: 500 
No. of variables tried at each split: 3 


OOB estimate of error rate: 3.68% 


Confusion matrix: 
benign malignant class.error 


benign 319 10 0.0304 
malignant 8 152 O05:0'0 
> importance (fit.forest, type=2) 
i © i 
MeanDecreaseGini 要 性 
clumpThickness 12.550 
sizeUniformity 与 本 7 
shapeUniformity 48.66 
maginalAdhesion S97 
singleEpithelialCellSize 14.30 
bareNuclei 34.02 
blandChromatin 16.24 
normalNucleoli 26.34 
mitosis 1.81 
> forest.pred <- predict (fit.forest, df.validate) 
> forest.perf <- table(df.validates$sclass, forest.pred, A 
dnn=c("Actual", "Predicted")) 


> forest.perf 


Predicted 
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Actual benign malignant 
benign 下 下 水 3 
malignant 1 9 


首先 ，randomForest () 函数 从 训练 集中 有 放 回 地 随机 抽取 489 个 观测 点 ， 在 每 棵 树 的 每 个 
节点 随机 抽取 3 个 变量 ,从 而 生成 了 500 棵 传统 决策 树 @。na .action=na .roughfix 参 数 可 将 数 
值 变 量 中 的 缺失 值 替 换 成 对 应 列 的 中 位 数 , 类 别 变量 中 的 缺失 值 蔡 换 成 对 应 列 的 众 数 类 ( 若 有 多 
个 众 数 则 随机 选 一 个 )。 

随机 森林 可 度量 变量 重要 性 , 通过 设置 information=TRUE 人 参数 得 到 , 并 通过 importance () 
函数 输出 @。 由 type=2 参 数 得 到 的 变量 相对 重要 性 就 是 分 割 该 变量 时 节点 不 纯度 ( 异 质 性 ) 的 
下 降 总 量 对 所 有 树 取 平均 。 节 点 不 纯度 由 Gini 系 数 定 义 。 本 例 中 ，sizeuniformity 是 最 重要 的 
变量 ，mitosis 是 最 不 重要 的 变量 。 

最 后 , 再 通过 随机 森林 算法 对 验证 集中 的 样本 单元 进行 分 类 ,并 计算 预测 准确 率 合 。 分 类 时 
剔除 验证 集中 有 缺失 值 的 单元 。 总 体 来 看 ， 对 验证 集 的 预测 准确 率 高 达 98%。 

randomForest 包 根据 传统 决策 树 生 成 随机 森林 ， 而 party 包 中 的 cforest () 函数 则 可 基于 
条 件 推断 树 生 成 随机 森林 。 当 预 测 变量 间 高 度 相 关 时 , 基于 条 件 推断 树 的 随机 森林 可 能 效果 更 好 。 

相 较 于 其 他 分 类 方法 ， 随 机 森林 的 分 类 准确 率 通常 更 高 。 另 外 ， 随 机 森林 算法 可 处 理 大 规模 
问题 ( 即 多 样本 单元 、 多 变量 )， 可 处 理 训 练 集中 有 大 量 缺 失 值 的 数据 , 也 可 应 对 变量 远 多 于 样本 
单元 的 数据 。 可 计算 袋 外 预测 误差 ( OOB error )、 度 量变 量 重要 性 也 是 随机 森林 的 两 个 明显 优势 。 

随机 森林 的 一 个 明显 缺点 是 分 类 方法 ( 此 例 中 相当 于 500 棵 决策 树 ) 较 难 理解 和 表达 。 另 外 ， 
我 们 需要 存储 整个 随机 森林 以 对 新 样本 单元 分 类 。 

下 一 节 将 讨论 本 章 最 后 一 个 分 类 模型 : 支持 向 量 机 。 


17.5 ”支持 向 量 机 


支持 向 量 机 ( SVM ) 是 一 类 可 用 于 分 类 和 回归 的 有 监督 机 需 学 习 模 型 。 其 流行 归功 于 两 个 方 
面 : 一 方面 ， 他 们 可 输出 较 准 确 的 预测 结果 ; 另 一 方面 ,模型 基于 较 优雅 的 数学 理论 。 本 章 将 介 
绍 支持 向 量 机 在 二 元 分 类 问题 中 的 应 用 。 

SVM 则 在 在 多 维 空间 中 找到 一 个 能 将 全 部 样本 单元 分 成 两 类 的 最 优 平 面 ,这 一 平面 应 使 两 类 
中 距离 最 近 的 点 的 间距 ( margin ) 尽 可 能 大 , 在 间距 边界 上 的 点 被 称 为 支持 向 量 ( support vector， 
它们 决定 间距 )， 分 割 的 超 平面 位 于 间距 的 中 间 。 

对 于 一 个 NN 维 空间 ( 即 N 个 变量 ) 来 说 ， 最 优 超 平面 ( 即 线性 决策 面 ，linear decision surface ) 
为 N-1 维 。 当 变量 数 为 2 时 ， 曲 面 是 一 条 直线 ; 当 变 量 数 为 3 时 ， 曲 面 是 一 个 平面 ; 当 变 量 数 为 10 
时 ， 曲 面 就 是 一 个 九 维 的 超 平面 。 当 然 ， 这 并 不 是 太 好 想象 。 

下 面 来 看 图 17-4 中 的 二 维 问题 。 圆 圈 和 三 角形 分 别 代表 两 个 不 同类 别 ， 间 距 即 两 根 虚 线 间 的 
距离 。 虚 线 上 的 点 〈 实 心 的 圆圈 和 三 角形 ) 即 支 持 向 量 。 在 二 维 问题 中 ， 最 优 超 平 面 即 间距 中 的 
黑色 实 线 。 在 这 个 理想 化 案例 中 , 这 两 类 样本 单元 是 线性 可 分 的 ， 即 黑色 实 线 可 以 无 误差 地 准确 
区 分 两 类 。 
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线性 可 分 的 特征 








X2 
0 



































图 17-4 ”线性 可 分 的 二 分 类 问题 。 对 应 的 超 平面 即 黑色 实 线 ， 间 距 即 黑色 实 线 与 两 根 
虚线 间 的 距离 ， 实 心 圆圈 和 三 角形 是 支持 向 量 
最 优 超 平面 可 由 一 个 二 次 规划 问题 解 得 。 二 次 规划 问题 限制 一 侧 样 本 点 的 输出 值 为 +1, 男 一 
侧 的 输出 值 为 -1,， 在 此 基础 上 最 优化 间距 。 若 样本 点 “几乎 ”可 分 ( 即 并 非 所 有 样本 点 都 集中 在 
一 侧 )， 则 在 最 优化 中 加 入 惩罚 项 以 容许 一 定 误 差 ， 从 而 生成 “ 软 ” 间 隔 。 
不 过 有 可 能 数据 本 身 就 是 非 线 性 的 。 比 如 图 17-5 中 就 不 存在 完全 分 开 圆 圈 和 三 角形 的 线 。 在 
这 种 情况 下 ，SVM 通 过 核 函 数 将 数据 投影 到 高 维 ， 使 其 在 高 维 线性 可 分 。 可 以 想象 对 图 17-5 的 数 
据 投 影 ， 从 而 将 圆圈 从 纸 上 分 离 出 来 , 使 其 位 于 三 角形 上 方 的 平面 。 一 种 方法 是 将 二 维 数据 投影 
到 三 维 空间 : 









































(X,7) > X,V2XY,Y’) (2,,2,,2,) 
线性 不 可 分 的 特征 









































图 17-5” 当 两 类 线性 不 可 分 时 的 分 类 问题 ， 此 时 无 法 用 一 个 超 平 面 ( 即 一 条 线 ) 分 
这 两 类 
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这 样 , 我 们 就 可 以 用 一 张 硬 纸 片 将 三 角形 与 圆圈 分 开 ( 一 个 二 维 平面 变 成 了 一 个 三 维 空间 )。 

SVM 的 数学 解释 比较 复杂 ， 不 在 本 书 的 讨论 范围 内 。Statnijov 、Aliferis 、Hardin 和 Guyon 在 
2011 年 做 了 一 个 直观 清晰 的 关于 SVM 的 展示 ， 介 绍 了 SVM 中 一 些 概念 性 的 细节 ， 同 时 避免 了 复 
杂 的 数学 推导 。 

SVM 可 以 通过 R 中 kernlap 包 的 ksvm() 函数 和 el1071 包 中 的 svm () 函数 实现 。ksvm () 功能 
更 强大 ,但 svm() 相对 更 简单 。 代 码 清单 17-6 给 出 了 通过 svm () 函数 对 威斯康星 州 乳腺 癌 数 据 建 
SVM 模型 的 一 个 示例 。 


代码 清单 17-6 ”支持 向 量 机 


> library (e1071) 














> set.seed(1234) 

> fit.svm <- svm(class~., data=df.train) 
> fit.svm 

Call 

svm(formula = class ~ ., data = df.train) 
Parameters: 


SVM-Type: C-classification 
SVM-Kernel: radial 
GOSta “1 
gamma: 0.1111 


Number of Support Vectors: 76 


> svm.pred <- predict (fit.svm, na.omit (df.validate)) 
> svm.perf <- table(na.omit (df.validate) sclass, 


svm.pred, dnn=c("Actual", "Predicted")) 
> svm.perf 
Predicted 
Actual benign malignant 
benign 116 4 
malignant 3 77 











由 于 方差 较 大 的 预测 变量 通常 对 SVM 的 生成 影响 更 大 , svm() 函数 默认 在 生成 模型 前 对 每 个 
变量 标准 化 ,使 其 均值 为 0、 标 准 差 为 1。 从 结果 来 看 ，SVM 的 预测 准确 率 不 错 ， 但 不 如 17.4 节 中 
介绍 的 随机 森林 方法 。 与 随机 森林 算法 不 同 的 是 ,SVM 在 预测 新 样本 单元 时 不 允许 有 缺失 值 出 现 。 


选择 调和 参数 


svm() 函数 默认 通过 径 向 基 函 数 (Radial Basis Function，RBF ) 将 样本 单元 投射 到 高 维 空间 。 
一 般 来 说 RBF 核 是 一 个 比较 好 的 选择 ， 因 为 它 是 一 种 非 线 性 投影 ， 可 以 应 对 类 别 标签 与 预测 变量 
间 的 非 线 性 关系 。 

在 用 带 RBF 核 的 SVM 拟 合 样本 时 , 两 个 参数 可 能 影响 最 终结 果 : gamma 和 成 本 ( cost ), gamma 
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是 核 函 数 的 参数 ， 控 制 分 割 超 平面 的 形状 。gamma 越 大 ， 通 常 导 致 支持 向 量 越 多 。 我 们 也 可 将 
gamma 看 作 控制 训练 样本 “到 达 范 围 ” 的 参数 ， 即 gamma 越 大 意味 着 训练 样本 到 达 范 围 越 广 ， 而 
越 小 则 意味 着 到 达 范 围 越 窜 。gamma 必 须 大 于 0。 

成 本 参数 代表 犯错 的 成 本 。 一 个 较 大 的 成 本 意味 着 模型 对 误差 的 惩罚 更 大 ,从 而 将 生成 一 个 
更 复杂 的 分 类 边界 ， 对 应 的 训练 集中 的 误差 也 会 更 小 , 但 也 意味 着 可 能 存在 过 拟 合 问题 ， 即 对 新 
样本 单元 的 预测 误差 可 能 很 大 。 较 小 的 成 本 意味 着 分 类 边界 更 平滑 ,但 可 能 会 导致 欠 拟 合 。 上 
gamma 一 样 ， 成 本 参数 也 恒 为 正 。 

svm() 函数 默认 设置 gamma 为 预测 变量 个 数 的 倒数 , 成 本 参数 为 1。 不 过 gamma 与 成 本 参数 的 
不 同 组 合 可 能 生成 更 有 效 的 模型 。 在 建 模 时 , 我 们 可 以 尝试 变动 参数 值 建立 不 同 的 模型 , 但 利用 
格 点 搜索 法 可 能 更 有 效 。 可 以 通过 tune .svm() 对 每 个 参数 设置 一 个 候选 范围 ，tune .svm() 子 
数 对 每 一 个 参数 组 合生 成 一 个 SVM 模型 ,并 输出 在 每 一 个 参数 组 合 上 的 表现 。 代 码 清单 17-7 给 出 
了 一 个 示例 。 


代码 清单 17-7 ” 带 RBF 核 的 SVM 模 型 
> set.seed(1234) 


> tuned <- tune.svm(class~., data=df.train, 
用 变换 参数 


























gamma=10^(-6:1), 
GOsts10 人 (L0810)) 


> tuned 
0 输出 最 优 模 型 


- sampling method: 10-fold cross validation 


- best parameters: 
gamma cost 


0.01 1 
用 这 些 参 数 拟 
- best performance: 0.02904 合 模 型 
> fit.svm <- svm(class~., data=df.train, gamma=.01, cost=1) 
> svm.pred <- predict (fit.svm, na.omit (df.validate)) 
> svm.perf <- table(na.omit (df.validate)sclass, 评估 交叉 验 
svm.pred, dnn=c("Actual", "Predicted")) 证 表现 
> svm.perf 
Predicted 

Actual benign malignant 

benign 二 工艺 3 

malignant 3 2 


首先 , 对 不 同 的 gamma 和 成 本 拟 合 一 个 带 RBF 核 的 SVM 模 型 @, 我 们 一 共 将 尝试 八 个 不 同 的 
gamma( 从 0.000 001 到 10 ) 以 及 21 个 成 本 参数 ( 从 0.01 到 1010 ), 总 体 来 说 ,我 们 共 拟 合 了 168( 8x21 ) 
个 模型 ,并 比较 了 其 结果 。 训 练 集中 10 折 交叉 验证 误差 最 小 的 模型 所 对 应 的 参数 为 gamm=0.1， 
成 本 参数 为 1。 

基于 这 一 参数 值 组 合 , 我 们 对 全 部 训练 样本 拟 合 出 新 的 SVM 模型 四 , 然后 用 这 一 模型 对 验证 
集中 的 样本 单元 进行 预测 @， 并 给 出 错 分 个 数 。 在 本 例 中 , 调和 后 的 模型 人 轻微 减少 了 错 分 个 数 
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( 从 7 减少 到 6 )。 一 般 来 说 ， 为 SVM 模 型 选取 调和 参数 通常 可 以 得 到 更 好 的 结 
FSVM 适 用 面 比 较 广 ， 它 目前 是 很 流行 的 一 种 模型 。SVM 也 可 以 应 用 于 变量 


如 前 所 述 ， 由 于 














数 远 多 于 样本 单元 数 的 问题 , 而 这 类 问题 在 生物 医药 行业 很 常见 , 因为 在 DNA 微 序列 的 基因 表示 
中 ， 变 量 数 通 常 比 可 用 样本 量 的 个 数 高 1~2 个 量 级 。 
与 随机 森林 类 似 ，SVM 的 一 大 缺点 是 分 类 准则 比较 难以 理解 和 表述 。SVM 从 本 质 上 来 说 是 
































一 个 黑 盒子 。 另 外 ,SVM 在 对 大 量 样本 建 模 时 不 如 随机 森林 ,但 只 要 建立 了 一 个 成 功 的 模型 ,在 
对 新 样本 分 类 时 就 没有 问题 了 。 
选择 预测 效果 最 好 的 解 


在 17.1 ~ 17.3 节 中 ， 我 们 通过 几 种 有 监督 机 器 学 习 方 法 对 细 针 抽 吸 活检 细胞 进行 分 类 ， 但 如 
何 从 中 选 出 最 准确 的 方法 呢 ? 首先 需要 在 二 分 类 情况 下 定义 准确 。 
最 常用 的 一 个 统计 量 是 准确 率 ( accuracy )， 即 分 类 器 是 否 总 能 正确 划分 样本 单元 。 不 过 , 尽 


17.6 





假设 我 们 现在 


管 准确 率 承 载 的 信 ， 
各 种 分 类 方法 的 有 效 性 。 




















息 量 很 大 , 这 一 指标 仍 不 足以 选 出 最 准确 的 方法 。 我 们 还 需要 其 他 信息 来 评估 


需要 判别 一 个 人 是 否 患 有 精神 分 裂 症 。 精 神 分 裂 症 是 一 种 极 少 见 的 生理 障碍 ， 


人 和 群 中 的 患 病 率 约 为 1%。 如 果 一 种 分 类 方法 将 全 部 人 都 判 为 未 患 病 ， 则 这 一 分 类 器 的 准确 率 将 


达到 99%, 但 它 会 把 所 有 患 精 神 




















分 裂 症 的 人 都 判别 成 健康 人 。 从 这 个 角度 来 说 它 显 然 不 是 一 个 好 





的 分 类 器 。 因 此 ， 在 准确 率 之 外 ， 你 一 般 还 应 该 问 问 以 下 问题 。 








LV 





口 患 有 精神 分 裂 症 的 人 中 有 多 大 比例 成 功 鉴别 ? 
口 未 患 病 的 人 中 有 多 大 比例 成 功 鉴别 ? 

口 如 果 一 个 人 被 鉴别 为 精神 分 裂 症 患者 ， 这 个 判别 有 多 大 概率 是 准确 的 ? 
口 如 果 一 个 人 被 鉴别 为 未 患 病 ， 这 个 判别 又 有 多 大 概率 是 准确 的 ? 








上 述 问题 涉及 一 个 分 类 器 的 敏感 度 ( sensitivity )、 特 异性 ( sensitivity )、 正 例 命 中 率 (positive 
predictive power ) 和 负 例 命中 率 (negative predictive power )。 这 四 个 概念 的 定义 见 表 17-1。 


表 17-1 ”预测 准确 性 度量 




















统 计 量 解释 
敏感 度 正 类 的 样本 单元 被 成 功 预测 的 概率 ， 也 叫 正 例 覆 盖 率 (true positive) 或 召回 率 (recall) 
特异 性 负 类 的 样本 单元 被 成 功 预 测 的 概率 ， 也 叫 负 例 履 差 率 (true negative) 

正 例 命中 率 被 预测 为 正 类 的 样本 单元 中 ， 预 测 正确 的 样本 单元 占 比 ， 也 叫 精确 度 (precision) 

负 例 命 中 率 被 预测 为 负 类 的 样本 单元 中 ， 预 测 正确 的 样本 单元 占 比 

准确 率 被 正确 分 类 的 样本 单元 所 占 比 重 ， 也 叫 ACC 











下 面 给 出 计算 这 几 个 统计 量 的 函数 。 
代码 清单 17-8 评估 二 分 类 准确 性 


performance <- function(table，Dn=2) 1{ 
if(!all(dqim(table) == c(2,2))) 
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stop("Must be a2x 2 table") 
tn = table[1,1 


] 

fy = tablell;2 但 
i | 得 到 频数 

] 





fn = table[2,1 

tp = table[2,2 

sensitivity = tp/ (tp+fn) 

specificity = tn/ (tn+fp) 计算 统计 量 

ppp = tp/ (tp+fp) 

npp = tn/ (tn+fn) 

hitrate = (tp+tn)/ (tp+tn+fp+fn) 

result <- paste("Sensitivity = ", round(sensitivity, n) ， 
"\nSpecificity = ", round(specificity, n), 
"\nPositive Predictive Value = ", round(ppp, n), 输出 结果 
"\nNegative Predictive Value = ", round(npp, n), 
"\nAccuracy = ", round(hitrate, n), "\n'", sep="") 


cat (result) 








定 真 值 ( 行 ) 和 预测 值 ( 列 )， performance () 国 数 可 给 出 这 五 个 准确 性 度量 的 值 。 具体 
th 函数 首先 提取 出 负 类 中 正确 的 个 数 ( 良性 组 织 被 判别 为 良性 )、 负 类 中 错 分 的 个 数 ( 恶性 
织 被 判 为 良性 )、 正 类 中 错 分 的 个 数 ( 良性 组 织 被 判 为 恶性 )、 正 类 中 正确 的 个 数 ( 恶性 组 织 被 
ee 性 ) @。 这 些 计数 即 可 用 于 计算 敏感 度 、 特 性 性 、 正 例 命中 率 、 负 例 命中 率 和 准确 率 @。 
最 后 ， 函 数 将 显示 规范 后 的 结果 合 。 
以 下 代码 清单 将 performance () 郴 数 用 于 本 章 提 到 的 五 个 分 类 器 。 


代码 清单 17-9 ”乳腺 瘤 数据 分 类 右 的 性 能 


> performance (logit.perf) 
Sensitivity = 0.95 

Specificity = 0.98 

Positive Predictive Value = 0.97 
Negative Predictive Value = 0.97 
Aceuracy = O97 























> performance (dtree.perf) 
Sensitivity = 0.98 

Specificity = 0.95 

Positive Predictive Power = 0.92 
Negative Predictive Power = 0.98 
ACoUurAacy = V0.96 


> performance (ctree.perf) 
Sensitivity = 0.96 

Specificity = 0.95 

Positive Predictive Value = 0.92 
Negative Predictive Value = 0.98 
Aceuracy': = 0.95 





> performance (forest .perf) 
Sensitivity = 0.99 

Specificity = 0.98 

Positive Predictive Value = 0.96 


376 第 17 章 分 类 





Negative Predictive Value = 0.99 
AOOUITARY 人 人生 


> performance (svm.perf) 
Sensitivity = 0.96 
Specificity = 0.98 
Positive Predictive Value 
Negative Predictive Value 
ACOUrAaACY 5 和/ 


在 这 个 案例 中 ,这些 分 类 器 ( 逻辑 回归 、 传统 决策 树 、 条 件 推 断 树 、 随 机 森林 和 支持 向 量 机 ) 
都 表现 得 相当 不 错 。 不 过 在 现实 中 并 不 总 是 这 样 。 

在 这 个 案例 中 ,随机 森林 的 表现 相对 更 好 。 不 过 各 个 分 类 器 的 差距 较 小 ， 因 此 随机 森林 的 优 
势 可 能 具有 一 定 的 偶然 性 。 随 机 森林 成 功 鉴别 了 99% 的 恶性 样本 和 98% 的 良性 样本 ， 总 体 来 说 预 
测 准确 率 高 达 99%。96% 被 判 为 恶性 组 织 的 样本 单元 确实 是 恶性 的 〈 即 4% 正 例 错误 率 )，99% 被 
判 为 良性 组 织 的 样本 单元 确实 是 良性 的 ( 即 1% 负 例 错误 率 ), 从 癌症 诊断 的 角度 来 说 , 特异 性 ( 即 
成 功 鉴 别 恶 性 样本 的 概率 ) 这 一 指标 格外 重要 。 

我 们 也 可 以 从 特异 性 和 敏感 度 的 权衡 中 提高 分 类 的 性 能 , 但 这 不 在 本 书 的 范围 之 内 。 在 逻辑 
回归 模型 中 ，pregdict () 函数 可 以 估计 一 个 样本 单元 为 恶性 组 织 的 概率 。 如 果 这 一 概率 值 大 于 
0.5， 则 分 类 器 会 把 这 一 样本 单元 判 为 恶性 。 这 个 0.5 即 阅 值 ( threshold ) 或 门楼 值 ( cutoff value )。 
通过 变动 这 一 靖 值 ， 我 们 可 以 通过 牺牲 分 类 需 的 特异 性 来 增加 其 敏感 度 。 这 同样 适用 于 决策 树 、 
随机 森林 和 支持 向 量 机 ( 尽管 语句 写法 上 会 有 差别 )。 

变动 国 值 可 能 带 来 的 影响 可 以 通过 ROC ( Receiver Operating Characteristic ) 曲线 来 进一步 观 
察 。 ROC 曲 线 可 对 一 个 区 间 内 的 门槛 值 画 出 特异 性 和 敏感 度 之 间 的 关系 , 然后 我 们 就 能 针对 特定 
问题 选择 特异 性 和 敏感 度 的 最 住 组 合 。 许 多 R 包 都 可 以 画 ROC 曲 线 ， 如 ROCR、pROC 等 。 这 些 R 包 
中 的 函数 能 帮助 我 们 在 面 对 不 同 问 题 时 , 通过 比较 不 同 算法 的 ROC 曲 线 选 择 最 有 效 的 算法 。 细节 
见 Kuhn & Johnson (2013 )， 更 详尽 的 讨论 见 Fawcett ( 2005 )。 

到 目前 为 止 , 我 们 都 是 通过 执行 命令 行 代码 的 方式 调用 这 些 分 类 方法 。 下 一 节 中 , 我 们 将 介 
绍 一 个 图 像 式 交互 界面 ， 并 在 可 视界 面 上 生成 、 应 用 这 些 预 测 模 型 。 


17.7 用 rattle 包 进 行 数据 挖掘 


Rattle( R Analytic Tool to Learn Easily ) 为 R 语 言 用 户 提 供 了 一 个 可 做 数据 分 析 的 图 像 式 交互 
界面 (GUI )。 这 样 ， 本 章 提 及 的 很 多 也 数 以 及 未 提 及 的 其 他 无 监督 或 有 监督 的 学 习 方法 ， 都 可 
以 通过 鼠标 点 击 的 方式 操作 。Rattle 也 可 以 实现 数据 转换 和 评分 等 功能 ， 并 提供 了 可 用 于 评估 模 
型 的 一 系列 数据 可 视 化 工具 。 

使 用 命令 : 

install.packages ("rattle") 


可 以 从 CRAN 中 安装 rattle 包 及 其 附加 包 。 如 果 要 完整 安装 rattle ( 包括 它 需 要 的 所 有 包 ) 需 


中 



















































































































































































= 











17.7 用 rattle 包 进 行 数 据 挖 握 377 








要 我 们 下 载 并 安装 几 百 个 包 。 为 了 节约 时 间 和 存储 空间 ， 安 装 rattle 时 将 默认 同时 安装 几 个 必 
需 的 基础 包 。 其 他 包 将 在 我 们 需要 用 到 相关 分 析 方 法 时 安装 。 这 样 我 们 在 操作 中 可 能 会 不 时 碰 
到 需要 安装 缺失 程序 包 的 提醒 ; 如 果 选 择 “ 是 ”，R 会 从 CRAN 上 下 载 安装 所 需 的 程序 包 。 
对 于 不 同 的 系统 平台 和 软件 版 本 ,我 们 可 能 还 需要 装 一 些 其 他 的 软件 ,特别 是 Rattle 需 要 GTK+ 
工具 箱 。http://rattle.togaware.com 提 供 了 针对 OS 系统 的 安装 流程 ， 并 回答 了 可 能 遇 到 的 问题 。 
安装 好 rattle 后 ， 我 们 通过 


library (rattle) 
rattle!() 


进入 GUI 界面 ， 见 图 17-6。 











号 RData Miner - [Rattle] 





Project Iools Settings Help 
[TT® 站 名 加 日 4 加 本 
New Open Save Report Export Stop Quit 


i 





Source: 网 Spreadsheet ARFF ODBC R Dataset RData File Library Corpus Script 


Filename; (None) 昌 | Separator: ， Decimal: . 园 Header 
partition [70/15/15| [seed:| |42 3 [view] [Ea 


Target Data Type 


@input lonore Weight Calculator ® Auto © Categoric © Numeric © Survival 


Welcome to Rattle (rattle,togaware,com). 


Rattle is a free graphical user interface for Data Mining, developed using R. R is a free 
software environment for statistical computing and graphics. Together they provide a 
sophisticated environments for data mining, statistical analyses, and data visualisation, 


See the Help menu for extensive support in using Rattle. The book Data Mining with Rattle 
and R is available from Amazon. The Togaware Desktop Data Mining Survival Guide includes 
Rattle documentation and is available from datamining,togaware,com 


Rattle is licensed under the GNU General Public License, Version 2. Rattle comes with 
ABSOLUTELY NO WARRANTY. See Help -> About for details. 


Rattle Version 3.4.1. Copyright 2066-2614 Togaware Pty Ltd. 
Rattle is a registered trademark of Togaware Pty Ltd. 
Rattle was created and implemented by Graham Williams. 





To Begin: Choose the data source, specify the details, then click the Execute button. 











图 17-6 ”打开 Rattle 界 面 


在 本 节 中 , 我 们 将 在 Rattle 中 生成 条 件 推 断 树 并 预测 糖尿 病 。 糖尿 病 数据 同样 可 以 在 UCI 机 器 
学 习 数据 库 中 找到 。 这 个 皮 马 族 印第安 人 糖尿 病 (Pima Indians Diabetes ) 数据 中 共有 768 个 样本 
单元 ， 数 据 来 源 于 美国 糖尿 病 、 消 化 和 肾脏 疾病 协会 。 数 据 中 的 变量 包括 : 

口 怀孕 次 数 

口 口服 葡萄 糖 耐 量 试验 中 两 小 时 的 血糖 浓度 
口 舒张 压 (mm Hg ) 

口 三 头 肌 皮脂 厚度 ( mm ) 

口 两 小 时 血糖 胰岛 素 (mu U/ml ) 











~ 
分 
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口 糖尿 病 家 系 函 数 

口 年 龄 ( 岁 ) 

口 类 别 (0 为 未 患 糖尿 病 ，1 为 患 有 糖尿 病 ) 
数据 集中 有 34% 的 样本 单元 被 诊断 为 糖尿 病 患者 。 
通过 如 下 命令 在 Rattle 中 调用 这 个 数据 : 

exe 


ds <- 
url <- pastel(loc, 














ds, sep="") 


口 身体 质量 指数 (体重 ( 公斤 ) 与 身高 ( 米 ) 平方 之 商 ) 


"http://archive.ics.uci.edu/ml/machine-learning-databases/" 
"pima-indians-diabetes/pima-indians-diabetes.data" 


diabetes <- read.table(url, sep=",", header=FALSE) 
names (diabetes) <- c("npregant", "plasma", "bp", "triceps", 
"insulin", "bmi", "pedigree", "age", "class") 


diabetes$class <- factor(diabetes$class, 
labels=c ("normal", 

library (rattle) 

rattle() 


这 个 命令 可 以 从 UCI 数 据 库 中 下 载 这 一 数据 ， 为 


levels=c(0,1), 


"diabetic")) 





变量 命名 ,将 输出 变量 转 成 类 别 变量 并 为 类 别 添 


加 标签 ， 以 及 打开 Rattle。 这 样 我 们 就 可 以 看 到 如 图 17-6 所 示 的 选项 卡 式 对 话 窗 口 。 
我 们 可 以 点 击 R Dataset radio 按 钮 ， 从 下 拉 莱 单 中 选择 糖尿 病 数据 ， 然 后 单 击 左 上 角 的 执行 


( Execute )。 这 样 将 打开 图 17-7 中 的 窗口 。 





BR Data Miner - [Rattle (diabetes)] 


ele) 





No.Variable DataTypeInput Target Risk ldent 
1 npregant Numeric 向 

2 plasma Numeric ® 

3 bp Numeric ® 

4 triceps Numeric ® 

5 insulin Numeric ® 

6 bmi Numeric 加 

7 pedigree Numeric ® 

8 age Numeric ® 

9 class Categoric 9 


4 HH 


| Broject Tools Settings Help 和 Rattle Version 34.1 togawore.com | 
上 确 [= 回 ] 因 | 

Execute New Open Save Report Export Stop Quit | 
Date |Explore | Test| Transform | Cluster| Associate | Mode! | Evaluate | Log 

Source: Spreadsheet ARFF ODBC ©® R Dataset RData File Library Corpus Script 

Data Name: diabetes | 4 

可 partition |70/15/15 | [seed] |42 3 [view [Ed 

Target Data Type 
全 Input 重 ignore Weight Calculator Auto © Categoric © Numeric © Survival 


lgnore Weight 《Comment 


Unique: 17 
Unique: 136 
Unique: 47 
Unique: 51 
Unique: 186 
Unique 248 
Unique: 517 
Unique: 52 


Unique 2 











Roles noted, 768 observations and 8 input variables. The target is class. Categoric 2. Classification models enabled. 














图 17-7 从 数据 选项 卡 中 指 


定 每 个 变量 的 角色 
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在 这 个 窗口 中 , 我 们 可 以 看 到 各 个 变量 的 描述 , 也 可 以 指定 它们 在 数据 分 析 中 的 角色 。 变 量 
1~9 是 输入 变量 〈 预测 变量 )， 类 别 是 目标 输出 ， 因 此 可 以 直接 用 其 默认 设 定 。 

同时 , 我们 也 可 以 指定 训练 集 、 验 证 集 和 测试 集中 的 样本 比重 。 数 据 分 析 的 一 般 流 程 是 通过 
训练 集 建 立 模型 ， 基 于 验证 集 调 节 参 数 ， 在 测试 集 上 评价 模型 。Rattle 对 数据 集 的 默认 划分 是 
70/15/15， 设 定 随机 种 子 为 42。 

这 里 只 将 全 部 数据 分 成 训练 集 和 验证 集 ， 在 划分 文本 框 ( Partition text box ) 中 输入 70/30/0， 
设 定 种 子 为 1234， 再 单 击 执行 。 

这 样 , 我们 就 可 以 对 训练 样本 拟 合 一 个 预测 模型 了 。 为 生成 一 棵 条 件 推断 树 ， 我 们 先 选择 模 
型 (Model ) 选项 卡 ， 确 定 Tree radio 按 钮 已 被 选中 ( 默认 情形 )， 并 选择 Conditional radio 按 钮 设 
定 算法 。 单 击 执行 ， 则 Rattle 将 调用 party 包 中 的 ctree () 函数 ， 结 果 将 出 现在 窗口 底部 ( 见 图 
17-8 )。 















































号 RData Miner - [Rattle (diabetes)] 一 回 这 
| Broject Tools Settings Help OQ Rattle Version 3.41 togowarecom | 
EE 确 ] 白 回 性 @ 
| Execute New Open Save Report Export Stop Quit 
| Data | Explore | Test| Transform | cluster| Associate | Mode! [evaluate| Log| 
Type' ® Tree Forest Boost © SVM Linear © Neural Net © Survival Al 
Target: class Algorithm: © Traditional ® Conditional Model Builder ctree 
Min Split: 20 SS Max Depth: 30 Priors: Include Missing 
Min Bucket |7 四 Complexity 00100 自 Loss Matrix [oaw| 


Summary of the Conditional Tree model for Classification (built using“'ctree') 
Conditional inference tree with 6 terminal nodes 


Response: class 
Inputs: npregant, plasma, bp, triceps, insulin, bmi, pedigree, age 
Number of observations: 537 = 


1) plasma <= 123; criterion = 1, statistic = 117,.065 
2) npregant <= 6; criterion = 1, statistic = 19.518 
3) age <= 34; criterion = 0.999, statistic = 14.378 
4)* weights = 216 
3) age > 34 
5)* weights = 46 
2) npregant > 6 
6)* weights = 50 
1) plasma > 123 
7) plasma <= 157; criterion = 1, statistic = 21.974 
8)* weiqhts = 148 
Ui » 














The Decision Tree model has been built. Time taken: 0.04 secs 





图 17-8 ”在 模型 选项 卡 中 生成 决策 树 、 随 机 和 森林、 支持 向 量 机 等 。 这 里 对 训练 数据 拟 
合 条 件 推断 


画图 ( Draw ) 按钮 可 生成 与 模型 相对 应 的 图 ( 见 图 17-9 )。( 小 秘诀 : 在 点 击 画 图 前 ， 先 在 设 
置 菜单 内 指定 Use Cairo Graphics， 这 样 可 以 生成 更 精美 的 图 。) 
































<157 >157 





34 和 59 >59 
/ \ / \ 
Node 4 (n= 218) Node 5 (n= 49) Node 6 (n = 59) Node 8 (n= 148)Node 10 (n= 68) Node 11 (n= 9) 
和 和 E 和 E 
BE 0.8 5 0.8 5 0.8 5 0.8 5 0.8 5 0.8 
[= [= [3 [= [= [= 
0.6 0.6 0.6 0.6 0.6 0.6 
© 04 0 0.4 0 04 0 0.4 0 0.4 0 0.4 
加 加 包 忆 名 名 
号 0.2 马 0.2 号 0.2 号 0.2 号 0.2 号 0.2 
翅 0 总 0 ee] 0 翅 0 却 0 0 





图 17-9 ”对 糖尿 病 训 练 集 生成 的 条 件 推断 树 
我 们 可 以 通过 评价 ( Evaluate ) 选项 卡 来 评估 模型 。 这 里 可 以 指定 一 系列 评价 指标 ， 以 及 要 
用 到 的 样本 如 训练 集 、 验 证 集 等 ) 默认 将 生成 误差 矩阵 ( 即 本 章 中 的 混淆 矩阵 )。 单 击 执行 ， 
我 们 将 得 到 如 图 17-10 所 示 的 结果 。 





























BR Data Miner - [Rattle (diabetes)] 一 回 | 区 
| Broject Tools Settings Help @ Rattle Version 3.41 togawore.com 
8 | 已 回 ] 到 | 因 吗 


Execute New Open Save Report Export Stop Quit 
Data | Explore| Test| Transform | cluster| Associate] Model Evaluate |Log | 
Type: ® Error Matrix © Risk © Cost Curve © Hand © Lift © ROC © Precision © Sensitivity Prv Ob © Score 


Model: 园 Tree 口 BoostD Forest 口 SYM OD Linear 口 Neural Net 口 Survival 口 KMeans 口 HClust 
Data' © Training ® Validation Testing © Full © Enter © CSV File /BRHome | 加 R Dataset ”| 
Risk Variable: Report: ® Class © Probability Include ldentifiers © A 
Error matrix for the Decision Tree model on diabetes [validate] (counts): 
Predicted 
Actual normal diabetic 
normal 145 8 
diabetic 50 27 


Error matrix for the Decision Tree model on diabetes [validate] (proportions): 


加 


Predicted 
Actual normal diabetic Error 
normal 0.63 0.063 0.85 
diabetic 0.22 0.12 0.65 


Overall error: 0,2522, Averaged class error: 0.2425 


Rattle timestamp: 2015-03-19 10:20:04 rkabacoff 





4 四 ' 











Generated confusion matrix. 





图 17-10 在 评价 选项 卡 中 得 到 条 件 推断 树 在 验证 集 上 的 误差 矩阵 
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我 们 可 以 再 通过 performance () 函数 来 评估 误差 矩阵 ， 并 得 到 五 个 准确 性 指标 值 : 


SOV = MatEiX(te(l45. S50O, :8 27), Nrow=s2.) 
> performance(as.table (cv)) 














Sensitivity = 0.35 
Specificity = 0.95 
Positive Predictive Value 
Negative Predictive Value 
Accuracy = 0.75 


尽管 模型 的 准确 率 并 不 算 太 差 (75% ), 但 只 有 35% 的 糖尿 病 患者 得 到 成 功 鉴 别 。 我 们 可 以 在 Rattle 
中 试 试 随机 森林 或 者 文 持 向 量 机 ， 看 看 是 不 是 能 找到 更 好 的 分 类 方法 。 

Rattle 的 一 个 巨大 优势 是 可 以 对 同一 数据 集 拟 合 出 不 同 模型 ， 并 通过 评价 选项 卡 来 直接 比较 
各 个 模型 。 我 们 可 以 在 选项 卡 中 指定 想 要 比较 的 儿 种 方法 ， 然 后 单 击 执行 。 另 外 ,执行 过 程 中 调 
用 的 所 有 R 命 令 都 可 以 在 日 志 (Log ) 选项 卡 中 看 到 ， 还 可 以 将 它们 输出 到 一 个 文本 文件 中 来 实 
现 重复 调用 。 

我 们 可 以 在 Rattle 的 主页 (http://rattle.togaware.com/ ) 找到 更 多 相关 信息 , 也 可 以 看 看 Graham 
J Williams 在 The R Journal 中 的 综述 性 文章 (http:/mng.bzxD16Q )。Willams 在 2011 年 出 版 的 Data 
Mining with Rattle and R 是 介绍 Rattle 的 一 本 权威 著作 。 


Oa 
0.74 















































17.8 ”小结 


本 章 介绍 了 一 系列 用 于 二 分 类 的 机 器 学 习 方 法 , 包括 逻辑 回归 分 类 方法 、 传 统 决策 树 、 条 件 
推断 树 、 集 成 性 的 随机 和 森林 以 及 越 来 越 流行 的 支持 向 量 机 。 最 后 介绍 了 Rattle， 它 为 数据 挖掘 提 
供 了 一 个 图 形 用 户 界面 ， 使 用 户 可 以 通过 鼠标 点 击 的 方式 调用 相关 的 函数 。Rattle 在 比较 多 个 分 
类 模型 时 格外 有 用 。 由 于 它 可 在 日 志文 件 中 生成 可 重用 的 R 代 码 ， 也 为 我 们 学 习 R 中 的 许多 预测 
分 析 函 数 的 语法 提供 了 机 会 。 

本 章 介绍 的 方法 复杂 度 各 异 。 数 据 挖掘 者 一 般 会 尝试 一 些 相对 简单 的 方法 (如 逻辑 回归 、 决 
策 树 ) 和 一 些 复 杂 的 、 黑 箱 式 的 方法 〈 如 随机 森林 、 支 持 向 量 机 )。 如 果 与 简单 的 方法 相 比 ， 复 
杂 方 法 在 预测 效果 方面 并 没有 显著 提升 ， 则 我 们 一 般 会 选择 较 简单 的 方法 。 

本 章 用 到 的 两 个 数据 集 ( 癌症 和 糖尿 病 甄 别 ) 都 是 医学 类 数据 , 但 这 些 分 类 方法 在 其 他 领域 
也 很 常见 ， 包括 计算 机 科学 、 市 场 营销 、 金 融 、 经 济 和 行为 科学 。 另 外 ,虽然 我 们 目前 介绍 的 都 
是 二 分 类 数据 ( 恶性 /良性 、 患 糖尿 病 /不 患 糖 尿 病 ), 但 目前 对 这 些 方法 的 改进 也 使 其 适用 于 多 分 
类 问题 。 

“CRAN Task View: Machine Learning & Statistical Learning”( http://mng.bz/11Lm ) 一 文中 有 更 
多 关于 R 中 分 类 函数 的 讨论 。 其 他 实用 的 资源 包括 Kuhn & Johnson 以 及 Torgo 分 别 在 2013 年 及 2010 
年 出 版 的 著作 。 
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本 章 内 容 

口 识别 缺失 数据 

口 缺失 数据 模式 的 可 视 化 
口 完整 案例 分 析 

口 缺失 数据 的 多 重 插 补 法 























在 之 前 的 章节 中 ， 我 们 处 理 的 基本 都 是 完整 的 数据 集 ( 即 没 有 缺失 值 )。 虽然 这 样 有 助 于 简 
化 对 统计 和 绘图 方法 的 描述 ， 但 在 真实 世界 中 ， 缺 失 数 据 的 现象 是 极其 善 遍 的 。 

大 部 分 人 都 想 在 一 定 程度 上 避免 缺失 数据 造成 的 影响 。 统 计 教 科 书 可 能 不 会 提 及 这 个 问题 ， 
或 者 仅 用 很 少 的 篇 幅 介绍 ; 统计 软件 提供 的 自动 处 理 缺 失 值 的 方法 也 可 能 不 是 最 优 的 。 虽然 多 数 
数据 分 析 ( 至少 在 社会 科学 中 ) 会 牵涉 缺失 数据 ,但 在 期 刊 文章 的 方法 和 结果 章节 却 极 少 讨论 这 
个 问题 。 鉴 于 缺失 值 常常 出 现 , 并 且 可 能 导致 研究 结果 在 一 定 程度 上 无 效 ， 可 以 说 除了 在 一 些 专 
业 化 的 书籍 和 课程 中 ， 这 个 问题 的 受 重 视 程度 还 远 远 不 够 。 

数据 缺失 有 多 种 原因 。 可 能 是 由 于 调查 对 象 忘记 回答 一 个 或 多 个 问题 , 或 者 拒绝 回答 敏感 问 
题 , 或 者 感觉 疲劳 而 没有 完成 一 份 很 长 的 问卷 , 也 可 能 是 调查 对 象 错过 了 约定 或 者 过 早 从 研究 中 
退出 , 还 有 可 能 是 记录 设备 出 现 问题 、 网 络 连接 失效 、 数 据 误 记 等 。 有 时 缺失 数据 可 能 是 有 意 的 ， 
比如 为 提高 调查 效率 或 降低 成 本 , 你 可 能 不 会 对 所 有 的 调查 对 象 进行 数据 采集 。 有 时 数据 丢失 可 
能 是 由 于 一 些 未 知 因 素 。 
遗憾 的 是 ,大 部 分 统计 方法 都 假定 处 理 的 是 完整 矩阵 、 向 量 和 数据 框 。 大 部 分 情况 下 ,在 处 
理 收 集 了 真实 数据 的 问题 之 前 ， 你 不 得 不 消除 缺失 数据 : (1) 删除 含有 缺失 数据 的 实例 ; (2) 用 合 
理 的 蔡 代 值 蔡 换 缺失 值 。 不 管 是 哪 种 方法 ， 最 后 的 结果 都 是 没有 缺失 值 的 数据 集 。 

本 章 中 ， 我 们 将 学 习 处 理 缺 失 数据 的 传统 方法 和 现代 方法 ， 主 要 使 用 vTM 和 mice 包 。 命 令 
install.packages (c ("VIM", "mice") ) 可 下 载 并 安装 这 两 个 软件 包 。 

为 了 让 讨论 更 有 意思 ， 我 们 将 使 用 vIM 包 提供 的 哺乳 动物 睡眠 数据 ( sleep， 注意 不 要 将 其 
与 基础 安装 中 描述 药 效 的 sleep 数 据 集 混淆 ) 数据 来 源 于 Allison 和 Chichetti ( 1976 ) 的 研究 ,他 
们 研究 了 62 种 哺乳 动物 的 睡眠 、 生 态 学 变量 和 体质 变量 间 的 关系 。 他 们 对 动物 的 睡眠 需求 为 什么 
会 随 着 物种 变化 很 感 兴趣 。 睡 虐 数 据 是 因 变 量 ， 生 态 学 变量 和 体质 变量 是 自 变 量 或 预测 变量 。 
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插 补 法 对 所 有 的 62 个 物种 进行 分 析 。 


18.1 处理 缺失 值 的 步骤 


刚 接触 缺失 数据 研究 的 读者 可 能 会 被 各 式 各 样 的 方法 和 言论 弄 得 眼花 综 乱 。 该 领域 经 典 的 读 
本 是 Little 和 Rubin 的 Stiatistical Analysis with Missing Data, Second Edition( 2002 ) 一 书 。 其 他 比较 
优秀 的 图 书 和 文章 还 有 Allison 的 Missing Data( 2001 ), Schafer 和 Graham 的 “Missing Data: Our View 
of the State of the Art”(2002 )， 以 及 Schlomer、Bauman 和 Card 的 “Best Practices for Missing Data 





























Management in Counseling Psychology”( 2010 )。 一 个 完整 的 处 理 方法 通常 包含 以 下 几 个 步骤 : 
(1) 识别 缺失 数据 ; 
(2) 检查 导致 数据 缺失 的 原因 ; 
(3) 删除 包含 缺失 值 的 实例 或 用 合理 的 数值 代替 ( 插 补 ) 缺失 值 。 




















遗憾 的 是 , 往往 只 有 识别 缺失 数据 是 最 清晰 明确 的 步骤。 明白 数据 为 何 缺失 依赖 于 你 对 数据 











生成 过 程 的 理解 ， 而 决定 如 何 处 理 缺 失 值 则 需要 判断 哪 种 方法 的 结果 最 为 可 靠 和 精确 。 


缺失 数据 的 分 类 

统计 学 家 通常 将 缺失 数据 分 为 三 类 .尽管 它们 都 用 概率 术语 进行 描述 ,但 思想 都 非常 直观 。 
我 们 将 用 sleep 研 究 中 对 做 梦 时 长 的 测量 (12 种 动物 有 缺失 值 ) 来 依次 阐述 三 种 类 型 。 

(1) 完全 随机 缺失 ”若菜 变量 的 缺失 数据 与 其 他 任何 观测 或 未 观测 变量 都 不 相关 ， 则 数据 
为 完全 随机 缺失 ( MCAR )。 若 12 种 动物 的 做 梦 时 长 值 缺 失 不 是 出 于 系统 原因 ， 那 么 可 以 认为 
数据 是 MCAR。 注 意 ， 如 果 每 个 有 缺失 值 的 变量 都 是 MCAR ， 那 么 可 以 将 数据 完整 的 实例 看 作 
对 更 大 数据 集 的 一 个 简单 随机 抽样 。 

(2) 随机 缺失 若菜 变量 上 的 缺失 数据 与 其 他 观测 变量 相关 ， 与 它 自己 的 未 观测 值 不 相关 ， 
则 数据 为 随机 缺失 (MAR )。 例 如 ， 如 果 体 重 较 小 的 动物 更 可 能 有 做 梦 时 长 的 缺失 值 (可 能 
为 较 小 的 动物 更 难 观 察 )， 而 且 该 “缺失 ”与 动物 的 做 梦 时 长 无 关 ， 那 么 就 可 以 认为 该 数据 是 
MAR。 此 时 ， 一 旦 控制 了 体重 变量 ， 做 梦 时 长 数据 的 缺失 与 出 现 将 是 随机 的 。 

(3) 非 随机 缺失 ” 若 缺 失 数 据 不 属于 MCAR 和 MAR， 则 数据 为 非 随机 缺失 (NMAR )。 例 
如 ， 做 梦 时 长 越 短 的 动物 更 可 能 有 做 梦 数 据 的 缺失 (可 能 由 于 难以 测量 时 长 较 短 的 事件 )， 那 
么 可 认为 数据 是 NMAR。 

大 部 分 处 理 缺 失 数据 的 方法 都 假定 数据 是 MCAR 或 MAR。 此 时 ， 你 可 以 忽略 缺失 数据 的 
生成 机 制 ， 并 且 (在 替换 或 删除 缺失 数据 后 ) 可 以 直接 对 感 兴趣 的 关系 进行 建 模 。 


睡眠 变量 包含 睡眠 中 做 梦 时 长 (Dream )、 不 做 梦 时 长 (NonD ) 以 及 它们 的 和 (sleep )。 体 
质变 量 包含 体重 ( Bodywgt ， 单 位 为 千克 )、 脑 重 ( Brainwgt ， 单 位 为 克 )、 寿 命 (Span， 单 位 
为 年 ) 和 妊娠 期 (cest， 单位 为 天 )。 生态 学 变量 包含 物种 被 捕食 的 程度 ( Pread )、 睡 眠 时 的 暴露 
程度 ( Exp ) 和 面临 的 总 危险 度 ( Danger )。 生态 学 变量 以 从 1 ( 低 ) 到 5 (高 ) 的 5 分 制 进行 测量 。 
Allison 和 Chichetti 的 原作 仅 研 究 完整 的 数据 ， 为 了 深入 探究 变量 间 的 关系 ， 我 们 将 使 用 多 重 
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当 数 据 是 NMAR 时 ， 想 对 它 进行 恰当 的 分 析 比 较 困 难 ， 你 既 要 对 感 兴趣 的 关系 进行 建 模 ， 
又 要 对 缺失 值 的 生成 机 制 进行 建 模 。( 目前 分 析 NMAR 数 据 的 方法 有 模型 选择 法 和 模式 混合 
法 。NMAR 数 据 的 分 析 十 分 复杂 ， 超 出 了 本 书 的 范畴 。) 


处 理 缺失 数据 的 方法 有 很 多 , 但 不 能 保证 都 生成 一 样 的 结果 。 图 18-1 列 出 了 一 系列 可 月 


理 不 完整 数据 的 方法 ， 以 


及 相应 的 R 包 。 


























I 缺失 值 
is.nal(} 
Icomplete.cases() 
VIM 包 
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删除 缺失 

















最 大 似 然 估计 插 补缺 失 值 


mvmle 包 























无 效 实 例 〈 行 删除 ) 


omit.na() 





有 效 实例 
(配对 出 除法 ) 











图 18-1 








一 下 函数 有 
可 用 选项 


























多 重播 补 
mi 包 
mice 包 
amelia 包 
mitools 包 





单个 桥 补 ( 简 
Hmisc 包 
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处 理 不 完整 数据 的 方法 ， 以 及 R 中 相关 的 包 和 函数 
要 完整 介绍 处 理 缺 失 数 据 的 方法 ,用 一 本 书 的 篇 幅 











日 来 处 


才能 做 到 。 本 章 , 我 们 只 是 学 习 探究 缺失 





值 模式 的 方法 ,并 重点 介绍 三 种 最 流行 的 处 理 不 完整 数据 的 方法 (推理 法 、 行 删除 法 和 多 重 搬 补 
法 )。 在 本 章 最 后 ， 我 们 还 将 介绍 一 些 在 特定 环境 中 非常 有 用 的 其 他 处 理 办 法 。 


18.2 ”识别 缺失 值 
首先 ,回顾 4.5 节 的 内 容 并 进一步 拓展 。R 使 用 Na ( 不 可 得 ) 代表 缺失 值 ，NaN ( 不 是 一 个 数 ) 


代表 不 可 能 值 。 另 外 ， 符 号 Inf 和 -Inf 分 别 代 表 正 无 穷 和 负 无 穷 。 函 数 is .na() 、 
能 值 和 无 穷 值 。 每 个 返回 结果 都 是 TRUE 或 FALSE。 


is.infinite() 可 分 别 月 





来 识别 缺失 值 、 不 可 





表 18-1 给 出 了 一 些 示 例 。 














is.nan() 和 








表 18-1 is.na()、is.nan() 和 is.infinite() 涵 数 的 返回 值 示 例 
x is.nal(x) is.nan(x) is.infinite(x) 
X <- NA TRUE FALSE FALSE 
.AR TRUE TRUE FALSE 
Ed FALSE FALSE TRUE 


这 些 函 数 返 回 的 对 象 与 其 自身 参数 的 个 数 相同 。 知 每 个 元 素 的 类 型 检验 通过 ， 则 由 TRUE 符 
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换 , 否则 用 FALSE 替换 。 例 如 , 令 y <- c(1, 2,，3， NA) , 则 is.na(y) 返 回 向 量 c (FALSE, FALSE,， 

FALSE，TRUE) 。 

函数 complete .CaSes () 可 以 用 来 识别 和 矩阵 或 数据 框 中 没有 缺失 值 的 行 。 若 每 行 都 包含 完整 

的 实例 ， 则 返回 TRUE 的 逻辑 向 量 ; 若 每 行 有 一 个 或 多 个 缺失 值 ， 则 返回 FALSE。 
以 睡眠 数据 集 为 例 : 


# 加 载 数据 集 
datal(lsleep, package="VIM") 















































# 列 出 没有 缺失 值 的 行 


sleep[complete.cases (sleep),] 


# 列 出 有 一 个 或 多 个 缺失 值 的 行 
sleep[!complete.cases (sleep),!] 
输出 结果 显示 42 个 实例 为 完整 数据 ，20 个 实例 含 一 个 或 多 个 缺失 值 。 
由 于 逻辑 值 rTRUE 和 FALSE 分 别 等 价 于 数值 1 和 0， 可 用 sum() 和 mean () 函数 来 获取 关于 缺失 
数据 的 有 用 信息 。 如 : 
> sum(is.na(sleeps$sDream)) 
EF， 这 
> mean (is.na(sleep$sDream)) 
[1] 0.19 


> mean(!complete.cases (sleep)) 
[4 "O32 


结果 表明 变量 Dream 有 12 个 缺失 值 ，19% 的 实例 在 此 变量 上 有 缺失 值 。 另 外 ， 数 据 集中 32% 的 实 
例 包含 一 个 或 多 个 缺失 值 。 

对 于 识别 缺失 值 ， 有 两 点 需要 牢记 。 第 一 ，complete.cases () 函数 仅 将 NA 和 NaN 识 别 为 缺 
失 值 ， 无穷 值 ( Inf 和 -Inf ) 被 当 作 有 效 值 。 第 二 ， 必 须 使 用 与 本 章 中 类 似 的 缺失 值 函数 来 识别 
R 数 据 对 象 中 的 缺失 值 。 像 myvar == NA 这 样 的 逻辑 比较 无 法 实现 。 

现在 你 应 该 懂得 了 如 何 用 程序 识别 缺失 值 ， 接 下 来 学 习 一 些 有 助 于 发 现 缺失 值 模式 的 工具 吧 。 


18.3 ”探索 缺失 值 模式 


在 决定 如 何 处 理 缺 失 数据 前 ， 了 解 哪些 变量 有 缺失 值 、 数 目 有 多 少 、 是 什么 组 合 形式 等 信息 
非常 有 用 。 本 节 中 , 我 们 将 介绍 探索 缺失 值 模式 的 图 表 及 相关 方法 。 最 后 , 要 知道 数据 为 何 缺失 ， 
这 将 为 后 续 深 入 研究 提供 许多 启示 。 


18.3.1 列表 显示 缺失 值 


你 已 经 学 习 了 一 些 识别 缺失 值 的 基本 方法 。 比 如 18.2 节 使 用 complete.cases () 函数 列 出 完 
整 的 实例 ,或 者 相反 ,， 列 出 含 一 个 或 多 个 缺失 值 的 实例 。 但 随 着 数据 集 的 增 大 ， 该 方法 就 逐渐 丧 
失 了 吸引 力 。 此 时 你 可 以 转 回 其 他 R 函 数 。 
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mice 包 中 的 md .pattern() 困 数 可 生成 一 个 以 矩阵 或 数据 框 形式 展示 缺失 值 模式 的 表格 。 将 


函数 应 用 到 sleep 数 据 集 ， 可 得 到 : 


> library (mice) 

> data(sleep, package="VIM") 

> md.pattern (sleep) 

BodyWgt BrainWgt Pred Exp Danger Sleep Spa 




















42 

之 

3 

9 1 

2 0 

1 a 

2 0 
0 0 0 0 0 4 


n Gest Dream NonD 


1 


大 OPOPPPO 





1 出 1 0 
1 二 。 于 
0 上 ie 
1 0 0 2 
L L 0 2 
0 亚 二 记 

0 0 3 
由 0 0 .73 
4 于 2 14 38 


表 中 的 1 和 0 显示 了 缺失 值 模式 : 0 表示 变量 的 列 中 有 缺失 值 ，1 则 表示 没有 缺失 值 。 第 一 行 
表述 了 “无 缺失 值 ”的 模式 〈 所 有 元 素 都 为 1 )。 第 二 行 表 述 了 “除了 span 之 外 无 缺失 值 ”的 模 
式 。 第 一 列表 示 各 缺失 值 模式 的 实例 个 数 ， 最 后 一 列表 示 各 模式 中 有 缺失 值 的 变量 的 个 数 。 此 
处 可 以 看 到 , 有 42 个 实例 没有 缺失 值 , 仅 2 个 实例 缺失 了 span。9 个 实例 同时 缺失 了 NonD 和 Dream 

















的 值 。 数据 集 包 含 了 总 共 (42x0)+(2x1)+…+(1x3)=38 个 缺失 值 。 最 后 一 行 给 出 了 每 个 变量 中 缺失 


值 的 数目 。 
18.3.2 图形 探究 缺失 数据 














虽然 md .pattern () 函数 的 表格 输出 非常 简洁 ,但 我 通常 觉得 用 图 形 展示 模式 更 为 清晰 ,VIM 
包 提 供 了 大 量 能 可 视 化 数据 集中 缺失 值 模式 的 函数 ， 本 节 我 们 将 学 习 其 中 几 个 : aggr ()、 











matrixplot () 和 和 scattMiss()。 
aggr () 函数 不 仅 绘制 每 个 变量 的 缺失 值 数 ， 还 绘 和 


library ("VIM") 
aggr (sleep, prop=FALSE, numbers=TRUE) 





判 每 











个 变量 组 合 的 缺失 值 数 。 例 如 : 


上 述 代码 的 结果 见 图 18-2。( VIM 包 将 会 打开 GUI 界面 ， 你 可 以 关闭 它 ; 本 章 使 用 代码 完成 所 有 的 


工作 。) 
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图 18-2” ”aggr () 生 成 的 sleep 数 据 集 的 缺失 值 模 式 图 形 





可 以 看 到 , 变量 NonD 有 最 大 的 缺失 值 数 ( 14 ),， 有 2 种 哺乳 动物 缺失 了 NonD 、Dream 和 Sleep 
的 评分 。42 种 动物 没有 缺失 值 。 

代码 aggr (sleep，Pprop=TRUE，numbers=TRUE) 将 生成 相同 的 图 形 ， 但 用 比例 代 赫 了 计 
数 。 选 项 numpers=FALSE (默认 ) 删 去 数值 型 标签 。 

matrixplot () 函数 可 生成 展示 每 个 实例 数据 的 图 形 。matrixplot (sleep) 的 图 形 如 图 
18-3 所 示 。 此 处 ， 数 值 型 数据 被 重新 转换 到 [0, 1] 区 间 ， 并 用 灰 度 来 表示 大 小 : 浅 色 表示 值 小 ， 深 
色 表 示 值 大 。 默 认 缺 失 值 为 红色 。 注 意 , 在 图 18-3 中 ,红色 经 过 手工 阴影 化 处 理 ， 因 此 相对 于 灰 
色 缺 失 值 非常 显眼 。 你 可 以 自己 创建 图 形 ， 让 它 与 众 不 同 。 
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图 18-3 ” sleep 数据 集 按 实例 ( 行 ) 展示 真实 值 和 缺失 值 的 矩阵 图 。 和 矩阵 按 Bodywgt 
重 排 











该 图 形 可 以 交互 , 单 击 一 列 会 按 其 对 应 的 变量 重 排 矩 阵 。 图 18-3 中 的 行 按 Bodywgt 降 序 排列 。 
通过 和 矩阵 图 , 你 可 以 看 出 某 些 变 量 的 缺失 值 模式 是 否 与 其 他 变量 的 真实 值 有 关联 。 此 图 中 可 以 看 
到 ， 无 缺失 值 的 睡眠 变量 ( Dream、NonD 和 sleep ) 对 应 着 较 小 的 体重 ( Bodywgt ) 或 脑 重 
( BrainWwgt )。 

marginplot () 函数 可 生成 一 幅 散 点 图 ,在 图 形 边界 展示 两 个 变量 的 缺失 值 信息 。 以 做 梦 时 
长 与 哺乳 动物 妊娠 期 时 长 的 关系 为 例 ， 来 看 下 列 代码 : 


marginplot (sleep[c("Gest","Dream")], pch=c(20), 
col=c("darkgray", "red", "blue")) 


它 的 生成 图 形 见 图 18-4。 参 数 pch 和 co1 为 可 选项 ， 控 制 绘图 符号 和 使 用 的 颜色 。 

图 形 的 主体 是 Gest 和 Dream ( 两 变量 数据 都 完整 ) 的 散 点 图 。 左 边界 的 箱 线 图 展示 的 是 包含 
( 深 灰 色 ) 与 不 包含 (红色 ) Gest 值 的 Dream 变 量 分 布 。 注 意 ， 在 灰 度 图 上 红色 是 更 深 的 阴影 。 
四 个 红色 的 点 代表 缺失 了 Gest 得 分 的 Dream 值 。 在 底部 边界 上 ，Gest 和 Dream 间 的 关系 反 过 来 
了 。 可 以 看 到 ,妊娠 期 和 做 梦 时 长 呈 人 负 相 关 , 缺失 妊娠 期 数据 时 动物 的 做 梦 时 长 一 般 更 长 。 两 个 
变量 均 有 缺失 值 的 观测 个 数 在 两 边界 交叉 处 用 蓝 色 输出 (左下 角 的 0 )。 
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图 18-4 做梦 时 长 与 妊娠 期 时 长 的 散 点 图 ， 边 界 展示 了 缺失 数据 的 信息 


VIM 包 有 许多 图 形 可 以 帮助 你 理解 缺失 数据 在 数据 集中 的 模式 ， 包 括 用 散 点 图 、 箱 线 图 、 直 
方 图 、 散 点 图 矩阵、 平行 坐标 图 、 轴 须 图 和 气泡 图 来 展示 缺失 值 的 信息 , 因此 这 个 包 很 值得 探索 。 


18.3.3 ”用 相关 性 探索 缺失 值 


在 继续 下 文 之 前 , 还 有 些 方法 值得 注意 。 你 可 用 指示 变量 替代 数据 集中 的 数据 ( 1 表示 缺失 ， 
0 表示 存在 )， 这 样 生成 的 矩阵 有 时 被 称 作 影子 矩阵 。 求 这 些 指 示 变量 之 间 和 它们 与 初始 ( 可 观 
测 ) 变量 之 间 的 相关 性 ， 有 助 于 观察 哪些 变量 常 一 起 缺失 ， 以 及 分 析 变 量 “ 缺 失 ” 与 其 他 变量 
间 的 关系 。 

请 看 如 下 代码 : 

x <- as.data.frame(abs(is.nal(lsleep))) 


若 sleep 的 元 素 缺 失 ， 则 数据 框 x 对 应 的 元 素 为 1， 否 则 为 0。 你 可 以 观察 以 下 数据 的 前 几 行 : 


head (sleep, n=5) 
BodyWgt BrainWgt NonD Dream Sleep Span Gest Pred Exp Danger 





























V 


1 6654.000 DY E20 NA NA 3 3: 7538.56.. 6 本 5 3 3 3 
2 1.000 636.. “53 2.0 Bs3 “入 9 42 3 3 
3 3%38D5 44.5 NA NA 12.5 14.0 60 1 a 
4 0.920 oy NA NA 16.5 NA 25 3 2 3 
5 2547.000 4603.50, -2 1.8 379r 690. “624 3 5 4 


> head (x, n=5) 
BodyWgt BrainWgt NonD Dream Sleep Span Gest Pred Exp Danger 
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1 0 0 业 和 0 0 0 0 0 0 
办 0 0 0 0 0 0 0 0 0 0 
| 0 0 由 1 0 0 0 0 0 0 
4 0 0 于 业 0 1 0 0 0 0 
5 0 0 0 0 0 0 0 0 0 0 
以 下 代码 : 


y <- x[which(apply (x,2,sum)>0)] 

















可 提取 含 (但 不 全 部 是 ) 缺失 值 的 变量 ， 


cor (y) 


可 列 出 这 些 指示 变量 间 的 相关 系数 : 


NonD 
NonD 1.000 
Dream 0.907 
Sleep 0.486 
Span 0.015 
Gest -0.142 


Dream 
0.907 
4000 
0.204 
0.038 
0 E29 


-0. 


eep Span 
486.. 0015 
204 0.038 
000 -0.069 
069 1.000 
069 0.198 


Gest 
-0.142 
=0:1429 
-0.069 

0.198 
1.000 


此 时 ， 你 可 以 看 到 Dream 和 NonD 常 常 一 起 缺失 (y=0.91 )。 相 对 可 能 性 较 小 的 是 sleep 和 NonD 一 
p 和 Dream (7=0.20 )。 


起 缺失 (y=0.49 ),， 以 及 sl 
最 后 ， 你 可 以 看 到 含 缺失 值 变 量 与 其 他 可 观测 变 


> Cor (Sleep， 


BodyWgt 0 
BrainWgt 0. 
NonD 

Dream O's 
Sleep =0. 
Span 0 . 
Gest 0 
Pred 0 . 
Exp 0 
Danger O's 








y, use="pairwise.complete.obs") 


Warning message: 


In cor(lsleep, y, 


NonD Dream 
:2 023 
下 和 9 O63. 
NA NA 
189 NA 
080 -0.080 
083 0.060 
.202 0.051 
048 -0.068 
5., 027 
065 =075067 
use = 


Sleep 
509 了 于 了 -95 
0s0039 0 

NA -0 
一 0 二 890 05 
NA 0 


"pairwise.complete.obs") : 


the standard deviation is zero 


在 这 个 相关 系数 矩阵 中 , 行为 可 观测 变量 ， 





0 . 
0 
0.2025 0. 
0., 
0 


Span 
058 -0. 
QO:7:9- :0 
043 -0 
E17 0 
096 0 

NA -0 
175 
023. -0 
93.550 
06 =0 


Gest 
054 
US 


信息 和 NA 值 ， 这 些 都 是 方法 中 人 为 因素 所 导致 的 。 
从 相关 系数 矩阵 的 第 一 列 可 以 看 到 ， 体 重 越 大 〈 一 0.227 )、 妊 娠 期 越 长 ( :=0.202 )、 睡 眠 暴 


露 度 越 大 (一 0.245 ) 的 动物 无 梦 甩 


























三 | 
里 


间 的 关系 : 


列 为 表示 缺失 的 指示 变量 。 你 可 以 忽略 矩阵 中 的 警 





注意 ， 表 中 的 相关 系数 并 不 特别 大 ， 表 明 数 据 是 MCAR 的 可 能 性 比较 小 ， 更 可 能 为 MAR。 
不 过 也 绝 不 能 排除 数据 是 NMAR 的 可 能 性 , 因为 你 并 不 知道 缺失 数据 背后 对 应 的 真实 数据 
怎么 样 的。 比如 ， 你 不 可 能 知道 哺乳 动物 做 梦 时 长 与 该 变量 数据 缺失 概率 间 的 关系 。 当 缺乏 强力 


的 外 部 证 据 时 ， 我 们 通常 假设 数据 是 MCAR 或 者 MAR。 




















A 
到 


E 虐 的 评分 更 可 能 缺失 。 其 他 列 的 信息 也 可 以 按 类 似 方式 得 出 。 


日 
JE 
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18.4 理解 缺失 数据 的 来 由 和 影响 


识别 缺失 数据 的 数目 、 分 布 和 模式 有 两 个 目的 : (1) 分 析 生成 缺失 数据 的 潜在 机 制 ; (2) 评价 
缺失 数据 对 回答 实质 性 问题 的 影响 。 具 体 来 讲 ， 我 们 想 弄 清楚 以 下 几 个 问题 。 
口 缺失 数据 的 比例 多 大 ? 
口 缺失 数据 是 否 集中 在 少数 几 个 变量 上 ， 抑 或 广泛 存在 ? 
口 缺失 是 随机 产生 的 吗 ? 
口 缺失 数据 间 的 相关 性 或 与 可 观测 数据 间 的 相关 性 ， 是 否 可 以 表明 产生 缺失 值 的 机 制 ? 
回答 这 些 问 题 将 有 助 于 判断 哪 种 统计 方法 最 适合 用 来 分 析 你 的 数据 。 例如， 如 果 缺 失 数 据 集 
中 在 几 个 相对 不 太 重 要 的 变量 上 , 那么 你 可 以 删除 这 些 变量 , 然后 再 进行 正常 的 数据 分 析 。 如 果 
有 一 小 部 分 数据 ( 如 小 于 10% ) 随机 分 布 在 整个 数据 集中 (MCAR )， 那 么 你 可 以 分 析 数 据 完整 
的 实例 ， 这 样 仍 可 以 得 到 可 靠 且 有 效 的 结果 。 如 果 可 以 假定 数据 是 MCAR 或 者 MAR ， 那 么 你 可 
以 应 用 多 重 插 补 法 来 获得 有 效 的 结论 。 如 果 数 据 是 NMAR, 你 则 需要 借助 专门 的 方法 ,收集 新 数 
据 ， 或 者 加 入 一 个 相对 更 容易 、 更 有 收益 的 行业 。 
以 下 是 一 些 例子 。 
口 在 最 近 一 个 关于 求职 的 问卷 调查 中 ， 我 发 现 一 些 项 常常 一 同 缺失 。 很 明显 这 些 项 是 聚集 
在 一 起 的 ， 因 为 调查 对 象 没有 意识 到 问卷 第 三 页 的 背面 包含 了 这 些 项 目 。 此 时 ， 可 以 认 
为 这 些 数 据 是 MCAR。 
口 在 一 个 关于 全 球 领 导 风 格 的 调查 中 ， 学 历 变 量 经 常 性 地 缺失 。 调 查 显 示 欧 洲 的 调查 对 象 
更 可 能 在 此 项 目 上 留 白 ， 这 说 明 某 些 特 定 国家 的 调查 对 象 没 有 理解 变量 的 分 类 。 此 时 ， 
这 种 数据 最 可 能 是 MAR。 
口 我 参与 了 一 个 抑郁 症 的 研究 。 该 研究 发 现 ， 相 对 于 年 轻 的 病人 ， 年 龄 越 大 的 病人 越 可 能 
忽略 描述 抑郁 状态 的 项 。 经 过 访谈 发 现 ， 越 年 老 的 病人 越 不 情愿 承认 他 们 的 症状 ， 因 为 
如 此 做 违反 了 他 们 “三 绿 其 口 ”的 价值 观 。 但 是 ， 由 于 绝望 和 注意 力 无 法 集中 ， 抑 郁 症 
越 严重 的 病人 也 越 可 能 忽略 这 些 项 。 此 时 ， 可 以 认为 这 种 数据 是 NMAR。 
正如 你 通过 前 述 所 了 解 的 , 模式 的 鉴别 只 是 第 一 步 。 为 了 判断 缺失 值 的 来 源 ， 你 需要 理解 研 
究 的 主题 和 数据 收集 过 程 。 
假使 已 经 知道 了 缺失 数据 的 来 源 和 影响 , 那么 让 我 们 看 看 如 何 转换 标准 的 统计 方法 来 适应 缺 
失 数 据 的 分 析 。 我 们 将 重点 学 习 三 种 非常 流行 的 方法 : 恢复 数据 的 推理 方法 , 涉及 删除 缺失 值 的 
传统 方法 和 涉及 模拟 的 现代 方法 。 沿 着 这 个 思路 ,我 们 将 简要 回顾 一 些 在 专业 工作 中 应 用 的 方法 ， 
以 及 已 经 废弃 并 需要 扔 掉 的 旧 方 法 。 我 们 的 目标 一 直 未 变 : 在 没有 完整 信息 的 情况 下 ， 尽 可 能 精 
确 地 回答 收集 数据 所 要 解决 的 实质 性 问题 。 


18.5 理性 处 理 不 完整 数据 
推理 方法 会 根据 变量 间 的 数学 或 者 逻辑 关系 来 填补 或 恢复 缺失 值 。 下 面 的 一 些 例 子 有 助 于 阐 
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明 这 些 方 法 。 

在 sleep 数 据 集 中 , 变量 sleep 是 Dream 和 NonD 变 量 的 和 。 告知 道 了 它们 中 的 任意 两 个 变量 ， 
你 便 可 以 推导 出 第 三 个 。 因 此， 如 果 一 些 观 测 缺 失 了 这 三 个 变量 中 的 一 个 ,你 便 可 以 通过 加 减 来 
恢复 缺失 值 信息 。 

第 二 个 例子 ,我 们 考察 各 代 群 体 (依据 出 生年 代 区 分 ， 如 沉默 的 一 代 、 婴 儿 潮 一 代 、 婴 儿 潮 
后 期 一 代 、 无 名 一 代 、 千 禧 一 代 ) 在 工作 与 生活 间 的 平衡 差异 。 调 查 对 象 都 被 问 及 了 他 们 的 出 生 
日 期 和 年 龄 , 如 果 出 生日 期 缺失 , 你 便 可 以 根据 他 们 的 年 龄 和 其 完成 调查 时 的 日 期 来 填补 他 们 的 
出 生年 份 (以 及 他 们 所 属 的 年 代 群 体 )， 这 样 便 可 使 调查 问卷 完整 。 

另 一 个 例子 是 通过 逻辑 关系 来 恢复 缺失 数据 。 数 据 来 源 于 一 系列 的 领导 力 研究 , 参与 者 被 问 
及 他 们 是 否 是 经 理 (是 /不 是 ) 和 他 们 直接 下 属 的 个 数 (整数 )。 如 果 他 们 在 是 否 是 经 理 的 问题 上 
留 白 ,但 却 告 知 他 们 有 一 个 或 多 个 直接 下 属 ， 那 么 可 以 推断 他 们 是 经 理 。 

最 后 一 个 例子 是 我 经 常 参与 的 性 别 研 究 ， 比 较 的 是 男女 领导 风格 和 效力 间 的 差异 。 参与 者 会 
完整 填写 他 们 的 名 字 ( 姓 和 名 )、 性 别 和 关于 他 们 领导 方式 和 影响 的 详细 评价 。 如 果 参 与 者 在 性 
别 间 题 上 留 白 ， 为 了 将 他 们 包含 在 研究 中 ， 我 便 需 要 插 补 这 些 缺 失 值 。 在 最 近 一 项 对 66 000 个 经 
理 的 研究 中 ，11 000 (17% ) 个 人 没有 填写 性 别 项 。 

在 最 后 这 个 例子 中 ,我 会 按 以 下 推理 过 程 进 行 处 理 。 首 先 ， 将 姓 和 性 别 交 义 制 表 。 一 些 姓 会 
与 男性 相 联 系 ， 一 些 会 与 女性 相 联系 ， 还 有 一 些 会 与 两 种 性 别 相 联 系 。 比 如 , “William” 出 现 了 
417 次 ， 总 是 男性 ; 相反 , “Chris” 出 现 了 237 次 , 但 有 时 是 男性 (86%,“ 克 里 斯 ”)， 有 了 时 是 女性 
(14%,“ 克 丽 丝 ”)。 如 果 一 个 姓 在 数据 集中 出 现 超 过 20 次 ， 并 总 是 与 男性 或 者 女性 (不 是 同时 与 
两 者 ) 相 联 系 , 我 便 认为 该 姓 代表 着 一 个 性 别 。 利 用 该 假设 ,我 创建 了 一 个 性 别 专 有 姓 的 性 别 查 
询 表 ， 查 询 这 个 表 ， 我 便 能 恢复 7000 个 实例 ( 有 缺失 值 经 理 人 中 的 63% )。 

推理 研究 法 常常 需要 创造 性 和 想法 , 同时 还 需要 许多 数据 处 理 技巧 , 而 且 数 据 的 恢复 可 能 是 
准确 的 ( 如 睡眠 的 例子 ) 或 者 近似 的 ( 性别 的 例子 )。 下 一 节 我 们 将 探究 一 种 通过 删除 观测 来 创 
建 完整 数据 集 的 方法 。 


18.6 ”完整 实例 分 析 〔 行 删除 ) 


在 完整 实例 分 析 中 ， 只 有 每 个 变量 都 包含 了 有 效 数据 值 的 观测 才 会 保留 下 来 做 进一步 的 分 
析 。 实 际 上 ， 这 样 会 导致 包含 一 个 或 多 个 缺失 值 的 任意 一 行 都 会 被 删除 ， 因 此 常 称 作 行 删除 法 
( listwise )、 个 案 删除 (case-wise ) 或 剔除 。 大 部 分 流行 的 统计 软件 包 都 默认 采用 行 删除 法 来 处 理 
缺失 值 ， 因此 许 许 多 多 的 分 析 人 员 在 使 用 诸如 回归 或 者 方差 分 析 法 来 分 析 数 据 时 , 都 没有 意识 到 
有 “缺失 值 问题 ”需要 处 理 ! 
函数 complete.cases () 可 以 用 来 存储 没有 缺失 值 的 数据 框 或 者 矩阵 形式 的 实例 ( 行 ): 


newdata <- mydatalcomplete.cases (mydata),] 


同样 的 结果 可 以 用 na . omit 函数 获得 : 
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newdata <- na.omit (mydata) 


两 行 代码 表示 的 意思 都 是 : mygata 中 所 有 包含 缺失 数据 的 行 都 被 删除 ， 然 后 结果 才 存 储 到 
newdata 中 。 
现 假设 你 对 睡眠 研究 中 变量 间 的 关系 很 感 兴 趣 。 计 算 相关 系数 前 , 使 用 行 删 除法 可 删除 所 有 
含有 缺失 值 的 动物 : 
SOptLOnNS(dLogLtesL) 


> cor(na.omit (sleep)) 
BodyWgt BrainWgt NonD Dream Sleep Span Gest Pred Exp Danger 























BodyWgt 1.00 O0590:. 0 O00 S03 Qa OL 00 Owd, 0:26 
BrainWgt 0s96 L000 OudoO QO Qab63 “O33 002. “0531 0 dS 
NonD Us 3 5 
Dream -0.07 =0w0%® Qa a00. 02570522 S04 S000 5007 
Sleep -0:,34 0534 0 OT “lsd -0.38 S061 -Qs40 =0.:0> =0:: 60 
Span 0.47 O63 S00 S02 0sd ~ E00 “O65 0 LE S03 iO a0 
Gest Qs O23 "Qa6 S08 ET 06. “Ob De “T0000 “06, W033 
Pred 0.10 -0.02 0% 0 40 0 -0017 O09 00 Ob O93 
Exp 0.41 0332 E06" S0330 OG O32 05 O63 La0r O79 
Danger 0.26 OLS -0.9 0 06 ‘QOL OBL 093. 08 * 100 


表 中 的 相关 系数 仅 通 过 所 有 变量 均 为 完整 数据 的 42 种 动物 计算 得 来 。( 注意 代码 cor (sleep， 
use="complete.obs") 可 生成 同样 的 结果 。) 
若 想 研究 寿命 和 妊娠 期 对 睡眠 中 做 梦 时 长 的 影响 ， 可 应 用 行 删 除法 的 线性 回归 : 


> fit <- lm(Dream ~ Span + Gest, data=na.omit (sleep)) 
> summary (fit) 























Call: 
lm(formula = Dream ~ Span + Gest, data = na.omit (sleep)) 


Residuals: 
Min 1Q Median 30Q Max 
-2.333 ~05915" -0.221 .05382: 不 83 


Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) 2.480122 0.298476 8 二 37 尖 尖 
Span -0.000472 0.013130 -0.04 .97 
Gest -0.004394 0.002081 2:11 05041 * 
SL OdeS DN 


Residual standard error: 1 on 39 degrees of freedom 
Multiple R-squared: 0.167, Adjusted R-squared: 0.125 
F-statistic: 3.92 on 2 and 39 DF, p-value: 0.0282 


此 处 可 以 看 到 ， 动 物 妊娠 期 越 短 ， 做 梦 时 长 越 长 (控制 寿命 不 变 ); 而 控制 妊娠 期 不 变 时 ， 寿 命 
与 做 梦 时 长 不 相关 。 整 个 分 析 基 于 有 完整 数据 的 42 个 实例 。 
在 之 前 的 例子 中 ,如 果 data=na.omit (sleep) 被 data=sleep 和 替换 ,将 会 出 现 什么 情况 呢 ? 
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和 许多 R 函 数 一 样 ，lm() 将 使 用 有 限 的 行 删除 法 定义 。 只 有 用 天 数 拟 合 的 、 含 缺失 值 的 变量 ( 本 
例 是 Dream、 Span 和 Gest ) 对 应 的 实例 才 会 被 删除 ， 这 时 数据 分 析 将 基于 44 个 实例 。 

行 删除 法 假定 数据 是 MCAR ( 即 完整 的 观测 只 是 全 数据 集 的 一 个 随机 子 样本 )。 此 例 中 ,我 
们 假定 和 2 种 动物 是 62 种 动物 的 一 个 随机 子 样本 。 如 果 违 反 了 MCAR 假 设 , 回归 参数 的 结果 将 是 有 
扁 的 。 由 于 删除 了 所 有 含 缺 失 值 的 观测 , 减少 了 可 用 的 样本 ,这 也 将 导致 统计 效力 的 降低 。 此 例 
中 ， 行 删除 法 减少 了 32% 的 样本 量 。 接 下 来 ,我 们 将 探讨 一 种 能 够 利用 整个 数据 集 的 方法 〈 可 以 
均 括 那些 含 缺 失 值 的 观测 )。 


18.7 多重 插 补 


多 重 搬 补 (MI ) 是 一 种 基于 重复 模拟 的 处 理 缺 失 值 的 方法 。 在 面 对 复杂 的 缺失 值 问 题 时 ， 
MI 是 最 常 选用 的 方法 ， 它 将 从 一 个 包含 缺失 值 的 数据 集中 生成 一 组 完整 的 数据 集 ( 通常 是 3 到 10 
个 )。 每 个 模拟 数据 集中 ， 缺 失 数据 将 用 蒙特 卡 治 方法 来 填补 。 此 时 ， 标 准 的 统计 方法 便 可 应 用 
到 每 个 模拟 的 数据 集 上 ， 通 过 组 合 输出 结果 给 出 估计 的 结果 ， 以 及 引入 缺失 值 时 的 置信 区 间 。R 
中 可 利用 amelia、mice 和 mi 包 来 执行 这 些 操作 。 本 节 中 , 我 们 将 重点 学 习 mice 包 ( 利用 链 式 方 
程 的 多 元 插 补 ) 提供 的 方法 。 

图 18-5 可 以 帮助 理解 mice 包 的 操作 过 程 。 
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揪 补 后 的 数据 分 析 结 果 
图 18-5 通过 mi ce 包 应 用 多 重 搬 补 的 步骤 




















函数 mi ce () 首先 从 一 个 包含 缺失 数据 的 数据 框 开 始 ， 然 后 返回 一 个 包含 多 个 〈 默 认为 5 个 ) 
完整 数据 集 的 对 象 。 每 个 完整 数据 集 都 是 通过 对 原始 数据 框 中 的 缺失 数据 进行 插 补 而 生成 的 。 由 
于 插 补 有 随机 的 成 分 ， 因 此 每 个 完整 数据 集 都 略 有 不 同 。 然 后 ，with () 函数 可 依次 对 每 个 完整 
数据 集 应 用 统计 模型 ( 如 线性 模型 或 广义 线性 模型 )， 最 后 ，pool () 函数 将 这 些 单独 的 分 析 结 果 
整合 为 一 组 结果 。 最 终 模型 的 标准 误 和 zp 值 都 将 准确 地 反映 出 由 于 缺失 值 和 多 重 插 补 而 产生 的 不 
确定 性 。 



























































mice() 函数 如 何 插 补 缺失 值 ? 
缺失 值 的 插 补 通过 Gibbs 抽 样 完 成 。 每 个 包含 缺失 值 的 变量 都 默认 可 通过 数据 集中 的 其 他 
变量 预测 得 来 ,于 是 这 些 预测 方程 便 可 用 来 预测 缺失 数据 的 有 效 值 。 该 过 程 不 断 迭 代 直 到 所 有 
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的 缺失 值 都 收敛 为 止 。 对 于 每 个 变量 ， 用 户 可 以 选择 预测 模型 的 形式 ( 称 为 基本 插 补 法 ) 和 待 
选 入 的 变量 。 


默认 地 ， 预 测 的 均值 用 来 替换 连续 型 变量 中 的 缺失 数据 ， 而 Logistic 或 多 元 Logistic 回 归 则 


分 别 用 来 蔡 换 二 值 目标 变量 ( 两 水 平 因子 ) 或 多 值 变量 ( 多 于 两 水 平 的 因子 )。 其 他 基本 插 补 
法 包括 贝 叶 斯 线性 回归 、 判 别 分 析 、 两 水 平 正 态 插 补 和 从 观测 值 中 随机 抽样 。 用 户 也 可 以 选择 
自己 独 有 的 方法 。 

















基于 mice 包 的 分 析 通 常 符合 以 下 分 析 过 程 : 


library (mice) 

imp <- mice(data, m) 

fit <- with(imp, analysis) 
pooled <- pool (fit) 
summary (pooled) 





口 aata 是 一 个 包含 缺失 值 的 矩阵 或 数据 框 。 

口 imp 是 一 个 包含 m 个 插 补 数据 集 的 列表 对 象 , 同时 还 含有 完成 插 补 过 程 的 信息 。 默认 m 为 5。 

口 analysis 是 一 个 表达 式 对 象 ， 用 来 设 定 应 用 于 m 个 插 补 数据 集 的 统计 分 析 方 法 。 方 法 包 
括 做 线性 回归 模型 的 1m() 函数 、 做 广义 线性 模型 的 glm() 函数 、 做 广义 可 加 模型 的 
gam(), 以 及 做 负 二 项 模型 的 nbrm () 函数 。 表 达 式 在 函数 的 括号 中 , ~ 的 左边 是 响应 变量 ， 
右边 是 预测 变量 ( 用 + 符号 分 隔 开 )。 

口 fit 是 一 个 包含 m 个 单独 统计 分 析 结 果 的 列表 对 象 。 

口 pooled 是 一 个 包含 这 m 个 统计 分 析 平 均 结果 的 列表 对 象 。 

现 将 多 重 插 补 法 应 用 到 sleep 数 据 集 上 。 重 复 18.6 节 的 分 析 过 程 ， 不 过 此 处 我 们 将 利用 所 有 












































的 62 种 动物 。 设 定 随机 种 子 为 1234， 这 样 你 的 结果 将 和 我 的 分 析 结 果 一 





> library (mice) 
> datal(sleep, package="VIM") 
> imp <- mice(sleep, seed=1234) 


[...output deleted to save space...] 
> fit <- with(imp, lm(Dream ~ Span + Gest)) 


> pooled <- pool (fit) 
> summary (pooled) 


est se df Pr(>|lt|) O95 
(Intercept) 2.58858 0.27552 9.395 52.1 8.34e-13 2.03576 
Span -QQ0276 0 0L295 =0.213 52.9° .8.328=01 =0.,02874 
Gest 0 0042T “OOO0LDY 267L S56 99Le03 3000736 
hi 95 nmis fmi 
(Intercept) 3.14141 NA 0.0870 
Span 0.02322 4 0.0806 
Gest -0.00105 4 0.0537 


此 处 , 你 可 以 看 到 span 的 回归 系数 不 显著 (px0.08 ), Gest 的 系数 在 p<0.01 的 水 平 下 很 显著 。 
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若 将 这 些 结果 与 利用 完整 数据 分 析 法 ( 18.6 节 ) 所 得 的 结果 对 比 ， 你 会 发 现 背 离 的 结论 相同 。 当 
控制 寿命 不 变 时 ,妊娠 期 与 做 梦 时 长 有 一 个 (统计 ) 显著 的 、 负 相关 的 关系 。 完 整数 据 分 析 法 基 
于 和 2 种 有 完整 数据 的 动物 ， 而 此 处 的 分 析 法 基于 整个 数据 集中 全 部 62 种 动物 的 数据 。 男 外 ，fmi 
栏 也 展示 了 缺失 信息 〈 即 由 于 引入 了 缺失 数据 而 引起 的 变异 所 占 整体 不 确定 性 的 比例 )。 

你 可 以 通过 检查 分 析 过 程 所 创建 的 对 象 来 获取 更 多 的 插 补 信息 。 例 如 ， 来 看 imp 对 象 的 汇总 





> imp 


Multiply imputed data set 


Gall 


mice(data = sleep, seed = 1234) 
Number of multiple imputations: 5 
Missing cells per column: 


BodyWgt BrainWgt 


0 0 
Exp Danger 
0 0 


Imputation methods: 
BodyWgt BrainWgt 


Exp Danger 


VisitSequence: 


NonD Dream Sleep Span Gest 


3 4 5 6 
PredictorMatrix: 


NonD 
14 


NonD 
"pmm" 


Dream 


Dream 
"pmm" 








Sleep Span Gest 

4 4 4 
Sleep Span Gest 
"pmm" "pmm" "pmm" 





Pred 


BodyWgt BrainWgt NonD Dream Sleep Span Gest Pred Exp Danger 


BodyWgt 0 
BrainWwgt 
NonD 
Dream 
Sleep 
Span 
Gest 
Pred 
Exp 
Danger 0 


OoPPPPPO 


Random generator seed value: 





0 


OoPPPPPO 


0 


0) 
0 
0 





1234 


0 


大 


0 


CS 


0 


OOoPOPPPODO 
OOoOooPPPPODOD 
OOoPPPPPO 


0 


OOoPPPPPO 


CR A 


从 输出 结果 可 以 看 到 ， 五 个 数据 集 同时 被 创建 ， 预 测 均 值 ( pmm ) 匹配 法 被 用 来 处 理 每 个 含 缺 失 
Exp 和 Danger 没 有 进行 插 补 ("" )， 因 为 它们 并 没 


数据 的 变量 。BodyWgt、BrainWgt 、Pred、1 


有 缺失 数据 。Visitsequence 从 左 至 右 展示 了 插 补 的 变量 ， 








预测 变量 矩阵 ( PredictorMatrix ) 展示 了 进行 扣 








数据 集中 其 他 变量 的 信息 。( 在 矩阵 中 ， 行 代表 掉 








分 别 表示 使 用 和 未 使 用 。) 








从 NonD 开 始 ， 以 Gest 结 束 。 最 后 ， 


补 过 程 的 含有 缺失 数据 的 变量 ， 它 们 利用 了 


通过 提取 imp 对 象 的 子 成 分 ， 可 以 观测 到 实际 的 插 补 值 。 如 : 





补 变量 ， 列 代表 为 插 补 提供 信息 的 变量 ，1 和 0 
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> impSimpSDream 
下 2 3 


DD 
On 
FE 
manmDcobaibwun 
tO 
AAROAMTDLAOOWRT 
tA A EY IG. ED 
mwbaoamcamneu 
1 
mmomwbeDwumnan 
a OE EB OY OD 
AaamarnrioanmbGioo 


展示 了 在 Dream 变 量 上 有 缺失 值 的 12 种 动物 的 5 次 搬 补 值 。 检 查 该 矩阵 可 以 帮助 你 判断 插 补 值 是 
和 否 合理 。 若 睡眠 时 长 出 现 了 负 值 ， 搬 补 将 会 停止 〈 和 否则 结果 将 会 很 糟糕 )。 

利用 complete () 函数 可 以 观察 m 个 插 补 数据 集中 的 任意 一 个 。 格 式 为 : 

complete (imp, action=#) 
其 中 # 指 定 m 个 完整 数据 集中 的 一 个 来 展示 ， 比 如 : 

> dataset3 <- complete(imp, action=3) 


> dataset3 
BodyWgt BrainWgt NonD Dream Sleep Span Gest Pred Exp Danger 


























1 6654.00 STL2O" * Ds:T (Oj 3.3 38.6 645 3 5 3 
2 L100 G86. G63 2 B03 ds3 42 3 1 3 
3 3::338 44.5 10.6 A Pe ns et eR) 60 1 1 1 
4 0.92 5 EO S56 "L665 Ww 25 5 2 3 
5 2547.00 4603.0 2.1 Ta8 339 269.0. 2 人 3 5 4 
6 粳 0 .55 L795 795T 0.7 958 2970s 和 80 4 4 4 
[...output deleted to save space...] 


展示 了 多 重 插 补 过 程 中 创建 的 第 三 个 完整 数据 集 。 
由 于 篇 幅 限 制 ， 此 处 我 们 只 是 简略 介绍 了 mice 包 提供 的 多 重 插 补 法 (MI )。mi 和 Amelia 包 
也 提供 了 一 些 有 用 的 方法 。 如 果 你 对 缺失 值 的 多 重 搬 补 法 感 兴趣 ， 可 以 参考 以 下 学 习 资 源 ; 
口 多 重 插 补 FAQ 页 面 ( wwwi.stat.psu.edu/~jls/mifaq.html ); 
口 Van Buuren 和 Croothuis-Oudshoorn 的 论文 (2010 ) 以 及 Yu-Sung 、Gelman 、Hill 和 Yajima 
( 2010 ) 的 论文 ; 
口 “Amelia II: A Program for Missing Data” (http://gking.harvard.edu/amelia )。 
上 述 每 个 资源 都 能 加 深 你 对 这 些 虽然 未 充分 利用 但 却 十 分 重要 的 方法 的 理解 。 
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R 还 支持 其 他 一 些 处 理 缺 失 值 的 方法 。 虽 然 它 们 不 如 之 前 的 方法 应 用 广泛 ， 但 表 18-2 列 出 的 
包 在 一 些 专业 领域 非常 有 用 。 
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表 18-2 ”处 理 缺 失 数据 的 专业 方法 
软 件 包 描 述 

mvnmle 对 多 元 正 态 分 布 数据 中 缺失 值 的 最 大 似 然 估 计 

cat 对 数 线 性 模型 中 多 元 类 别 型 变量 的 多 重 插 补 
arrayImpute 、 arrayMissPattern 和 处 里 微 阵列 缺失 数据 的 实用 函数 

SeqKknn 

longitudinalData 相关 的 函数 列表 ， 比 如 对 时 间 序 列 缺 失 值 进行 插 补 的 一 系列 函数 
kmi 处 理 生存 分 析 缺 失 值 的 Kaplan-Meier 多 重 插 补 

mix 一 般 位 置 模型 中 混合 类 别 型 和 连续 型 数据 的 多 重 插 补 
ban 多 元 面板 数据 或 聚 类 数据 的 多 重播 补 











最 后 ,还 有 两 种 仍 在 使 用 中 的 缺失 值 处 理 方法 , 但 它们 已 经 过 时 ， 都 应 被 舍弃 ,分 别 是 成 对 
删除 (pairwise deletion ) 和 简单 搬 补 ( simple imputation )。 
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> Cor (Sleep， 


成 对 删除 
处 理 含 缺 失 值 的 数据 集 


use="pairwise.complete.obs") 
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此 例 中 ， 任 何 两 个 变量 的 相关 系数 都 只 利用 了 仅 这 两 变量 的 可 用 观测 ( 忽略 其 他 变量 )。 
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> 二 3 


时 ,成 对 删除 常 作为 行 删除 的 备 选 方法 使 用 。 对 于 成 对 删除 ,观测 只 
是 当 它 含 缺失 数据 的 变量 涉及 某 个 特定 分 析 时 才 会 被 删除 。 请 看 如 下 代码 : 


比如 


BodyWgt 和 Brainwgt 基 于 62 种 ( 所 有 变量 下 的 动物 数 ) 动物 的 数据 ， 而 Bodywgt 和 NonD 基 于 42 
种 动物 的 数据 ，Dream 和 NonDream 则 基于 46 种 动物 的 数据 。 
虽然 成 对 删除 似乎 利用 了 所 有 可 用 数据 , 但 实际 上 每 次 计算 都 只 用 了 不 同 的 数据 子 集 。 这 将 


会 导致 一 些 扭 明 的 、 难 以 解释 的 结果 ， 所 以 我 建议 不 要 使 用 该 方法 。 
简单 〈 非 随机 ) 插 补 
所 谓 简 单 插 补 ， 即 用 某 个 值 ( 如 均值 、 中 位 数 或 众 数 ) 来 替换 变量 中 的 缺失 值 。 若 使 朋 


18.8.2 





三 和 


替换 ， Dream 变 量 


同 )。 











日 均值 


中 的 缺失 值 可 用 1.97 来 替换 ，NonD 中 的 缺失 值 可 用 8.67 来 替换 〈 两 个 值 分 别 是 
Dream 和 NonD 的 均值 )。 注 意 这 些 替 换 是 非 随机 的 ， 这 意味 着 不 会 引入 随机 误差 〈 与 多 重 搬 补 不 











18.9 ”小 结 399 





简单 插 补 的 一 个 优点 是 , 解决 “缺失 值 问题 ”时 不 会 减少 分 析 过 程 中 可 用 的 样本 量 。 虽然 简 
单 插 补 用 法 很 简单 ， 但 是 对 于 非 MCAR 的 数据 会 产生 有 偏 的 结果 。 若 缺失 数据 的 数目 非常 大 , 那 
么 简单 插 补 很 可 能 会 低估 标准 差 、 曲 解 变量 间 的 相关 性 ， 并 会 生成 不 正确 的 统计 检验 的 p 值 。 与 
成 对 删除 一 样 ， 我 建议 在 解决 缺失 数据 的 问题 时 尽量 避免 使 用 该 方法 。 
































18.9 小结 


多 数 统计 方法 都 假设 输入 数据 是 完整 的 且 不 包含 缺失 值 ( 如 NA、 








NaN 或 Inf )。 但 是 现实 世 


界 中 的 大 多 数 数据 集 都 包含 了 缺失 值 。 因 此 , 在 进行 下 一 步 分 析 之 前 ， 你 要 么 删除 缺失 值 ， 要 么 




















用 合理 的 蔡 换 值 代替 它们 。 统 计 软 件 包 常 常会 提供 一 些 默认 的 缺失 值 处 理 方法 , 但 是 这 些 方法 可 
能 不 是 最 优 的 。 因 此 ， 理 解 各 种 各 样 可 用 的 方法 以 及 它们 的 分 支 就 显得 非常 重要 。 

















在 本 章 中 , 我 们 学 习 了 一 些 鉴别 缺失 值 和 探究 缺失 值 模式 的 方法 。 我们 的 目标 是 理解 产生 缺 
失 值 的 机 制 , 以 及 它们 对 后 续 分 析 可 能 产生 的 影响 。 我 们 回顾 了 三 种 流行 的 缺失 值 处 理 方法 : 推 
理 法 、 行 删除 法 和 多 重 插 补 。 

当 数 据 存 在 元 余 信息 或 有 外 部 信息 可 用 时 ,推理 法 可 用 来 恢复 缺失 值 。 当 数据 是 MCAR, 后 
续 样 本 量 的 减少 对 统计 检验 效力 不 会 造成 很 严重 的 影响 时 , 行 删除 法 非常 有 用 。 而 当 你 认为 数据 




















多 数据 分 析 昨 


是 MCAR 或 MAR， 并 且 缺 失 数 据 问题 非常 复杂 时 ， 多 重 扣 
对 


























[多重 搬 补 法 不 熟悉 ,但 是 用 户 贡献 的 软件 包 ( mice、 


外 补 将 是 一 个 非常 实用 的 方法 。 虽 然 许 


mi 和 Amelia ) 使 得 该 方法 


应 用 起 来 非常 容易 。 我 相信 在 不 久 的 将 来 ， 多 重 插 补 法 将 会 得 到 广泛 的 应 用 。 
本 章 最 后 简略 介绍 了 R 中 处 理 某 些 专业 领域 中 缺失 值 的 软件 包 ， 并 单独 列 出 了 一 些 在 处 理 缺 
失 值 时 应 该 尽量 避免 使 用 的 方法 ( 成 对 删除 和 简单 插 补 )。 
下 一 音 ， 我 们 将 探究 高 级 作 图 方法 ,使 用 ggplot2 包 创建 交互 式 多 元 图 形 。 

















技能 拓展 











在 最 后 一 部 分 ， 我 们 讨论 能 够 提升 你 作为 R 程序 员 技 能 的 高 级 话题 。 第 19 章 通过 展现 R 
最 强大 的 一 种 数据 可 视 化 方法 来 结束 我 们 对 图 形 的 讨论 。ggplot2 包 通 过 一 个 完整 的 图 形 语法 
来 提供 一 系列 工具 ， 让 你 用 新 的 创造 性 方式 来 对 复杂 的 数据 集 进行 可 视 化 。 你 将 能 够 创建 吸引 
人 的 、 信 息 量 大 的 图 形 ， 而 它们 是 很 难 或 者 不 可 能 使 用 R 的 基本 图 形 系统 来 创建 的 。 
第 20 章 从 一 个 更 高 的 水 平 回 顾 了 R 语言 。 其 中 讨论 了 R 的 面向 对 象 编程 特性 、 与 环境 的 
交互 和 高 阶 函 数 的 编写 。 这 一 章 也 描述 了 编写 高 效 代码 和 调试 程序 的 技巧 。 尽 管 第 20 章 比 起 其 
他 章 探讨 了 更 多 的 技术 ， 但 也 提供 了 很 多 关于 编写 更 有 用 程序 的 实用 建议 。 
在 整 本 书 中 ， 你 都 在 使 用 包 来 完成 工作 。 在 第 21 章 中 ， 你 会 学 习 如 何 编写 自己 的 包 。 这 
可 以 帮助 你 整理 和 记录 你 的 工作 ， 创 建 更 加 复杂 和 完善 的 软件 解决 方案 ， 以 及 向 他 人 分 享 你 的 
创造 成 果 。 与 他 人 分 享 含有 有 用 函数 的 包 也 是 一 种 回馈 R 社区 的 美妙 方法 (同时 也 能 使 你 名 声 
远扬 )。 
第 22 章 是 关于 报告 撰写 的 。R 提供 了 从 数据 中 动态 创建 优美 报告 的 完善 设备 。 在 这 一 章 ， 
你 会 学 习 如 何 创建 网 页 、PDF 文档 、 字 处 理 文档 (包括 Microsoft Word 文档 ) 等 形式 的 报告 。 
学 完 第 五 部 分 ， 对 于 R 的 工作 方式 和 它 提供 的 创建 复杂 图 形 、 软 件 和 报告 的 工具 ， 你 会 有 
更 深 的 理解 。 





















































































































































































































































































































































































































































使 用 ggplot2 进 行 高 级 绘图 








本 章 内 容 

口 介绍 ggplot2 包 

口 使 用 形状 、 颜 色 和 尺寸 来 对 多 元 数据 进行 可 视 化 
口 用 刻 面 图 比较 各 组 

口 自 定义 ggplot2 图 








在 之 前 的 儿童 中 , 我 们 学 习 创建 了 各 种 各 样 的 普通 图 形 和 特殊 图 形 ( 你 会 在 绘图 过 程 中 发 现 
许多 乐趣 )， 它 们 大 部 分 都 是 利用 R 的 基础 绘图 系统 创建 的 。 众 所 周知 ，R 中 方法 繁多 ， 所 以 对 于 
有 四 种 独立 而 完整 的 图 形 系统 这 一 事实 ， 你 也 不 必 感 到 惊奇 。 


除了 基础 图 形 , grida、lattice 和 ggplot2 软 件 包 也 提供 了 图 形 系 统 , 它们 克服 了 R 基 础 图 
形 系 统 的 低 效 性 ， 大 大 扩展 了 R 的 绘图 能 力 。 

grid 图 形 系统 可 以 很 容易 地 控制 图 形 基 础 单元 ， 给 予 编程 者 创作 图 形 的 极 大 灵活 性 。 
lattice 包 通过 一 维 、 二 维 或 三 维 条 件 绘 图 ， 即 所 谓 的 网 格 图 形 (trellis graph ) 来 对 多 元 变量 关 
系 进行 直观 展示 。ggplot2 包 则 基于 一 种 全 面 的 图 形 “ 语 法 ”提供 了 一 种 全 新 的 图 形 创 建 方法 。 

本 音 将 首先 回顾 这 四 种 图 形 系统 ,然后 重点 介绍 ggplot2 包 生成 的 图 形 。 这 个 包 极 大 地 扩展 
了 R 绘 图 的 范畴 ， 提 高 了 图 形 的 质量 。 它 通过 全 面 一 致 的 语法 帮助 我 们 将 多 变量 的 数据 集 进 行 可 
视 化 ， 并 且 很 容易 生成 R 自 带 图 形 难以 生成 的 图 形 。 


19.1 R 中 的 四 种 图 形 系统 


如 前 所 述 , R 中 有 四 种 主要 的 图 形 系统 。 基础 图 形 系统 由 Ross Ihaka 编 写 , 每 个 R 都 默认 安装 ， 
之 前 几 章 中 的 大 部 分 图 形 都 是 依赖 于 基础 图 形 函 数 创建 的 。 

grid 图 形 系统 由 Paul Murrell ( 2011 ) 编写 ， 通过 grid 包 安装 执行 。grig 图 形 提 供 了 一 种 比 
标准 图 形 系统 更 低 水 平 的 方法 。 用 户 可 以 在 图 形 设 备 上 随意 创建 矩形 区 域 , 在 该 区 域 定义 坐标 系 
统 ， 然 后 使 用 一 系列 丰富 的 绘图 基础 单元 来 控制 图 形 元 素 的 摆 放 和 外 观 。 

grid 图 形 的 灵活 性 对 于 软件 开发 者 是 非常 有 价值 的 ， 但 是 griad 包 没有 提供 生成 统计 图 形 以 
及 完整 绘图 的 函数 。 因 此 ， 数 据 分 析 师 很 少 直 接 采 用 griad 包 来 分 析 数 据 ， 这 里 也 不 再 讨论 。 如 
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果 想 深入 了 解 grid 的 话 ， 可 以 访问 Dr. Murrell 的 网 站 (http:/mng.bz/C86p ) 查看 更 多 内 容 。 

lattice 包 由 Deepayan Sarkar ( 2008 ) 编写 ， 可 绘制 Cleveland ( 1985，1993 ) 所 描述 的 网 格 图 
形 。 总 的 来 说 ， 网 格 图 形 显示 一 个 变量 的 分 布 或 是 变量 之 间 的 关系 ， 分 别 显示 一 个 或 多 个 变量 的 
各 个 水 平 。1attice 包 基于 grigd 包 创建 ， 在 多 元 数据 的 可 视 化 功能 方面 已 经 远 超 Cleveland 的 原始 
方法 。 它 为 R 提 供 了 一 种 全 面 的 、 创 建 统计 图 形 的 备 选 系统 。 本 书 中 描述 的 大 多 数 的 包 ( effects、 
gflexclust 、Hmisc、mice 和 odfweave ) 都 使 用 了 1lattice 包 中 的 函数 来 生成 图 形 。 

ggplot2 包 由 Hadley Wickham (2009a ) 编写 ， 提 供 了 一 种 基于 Wilkinson ( 2005 ) 所 述 图 形 
语法 的 图 形 系统 ，Wickham ( 2009b ) 还 对 该 语法 进行 了 扩展 。ggplot2 包 的 目标 是 提供 一 个 全 
面 的 、 基 于 语法 的 、 连 贯 一 致 的 图 形 生成 系统 ， 人 允许 用 户 创建 新 颖 的 、 有 创新 性 的 数据 可 视 化 图 
形 。 该 方法 的 力量 已 经 使 得 ggplot2 成 为 使 用 R 进 行 数据 可 视 化 的 重要 工具 。 

四 种 系统 的 载 人 方式 有 所 不 同 ， 见 表 19-1。 基 础 图 形 函 数 可 自动 调用 ， 而 gridqa 和 1lattice 
函数 的 调用 必须 加 载 相应 的 包 ( 如 1ibrary (Lattice) )。 要 调用 ggplot2 函 数 需要 下 载 并 安装 
该 包 ( install .packages ("ggplot2") ), 第 一 次 使 用 前 还 要 进行 加 载 ( 1ibrary (ggplot2) )。 


表 19-1 图 形 系统 的 载 入 

























































































系 统 基础 安装 中 是 否 包含 是 否 需要 显 式 加 载 
base 是 否 
grid 是 是 
lattice 是 是 
ggplot2 否 是 

















LIattice 包 和 ggplot2 包 在 函数 上 有 重合 但 是 创建 图 像 的 方式 不 同 。 在 画 多 元 数据 的 图 时 ， 
分 析 师 倾向 于 使 用 一 个 或 多 个 R 包 。 鉴 于 ggplot2 的 威力 和 流行 性 ， 本 章 剩 下 的 部 分 将 主要 讨论 
这 个 包 。 如 果 想 深入 了 解 lattice 包 ,可 以 从 www.statmethods.net/RiA/lattice.pdf 或 开发 者 的 网 站 
(www.manning.com/RinActionSecondEdition ) 下 载 补充 章节 。 

本 章 将 用 三 个 数据 集 解 释 ggplot2 的 使 用 。 第 一 个 是 从 1attice 包 中 的 singer 数 据 集 ， 它 
包括 纽约 合唱 团 歌手 的 高 度 和 语音 变量 。 第 二 个 是 在 本 书 中 已 经 使 用 过 的 mtcars 数 据 集 ， 它 包 
含 32 辆 汽车 的 详细 信息 。 最 后 一 个 是 在 第 8 章 中 讨论 的 car 包 中 的 salaries 数 据 集 。salaries 
数据 集 包 含 大 学 教授 的 收入 信息 ， 并 用 来 探索 性 别 差 异 对 他 们 收入 的 影响 。 总之, 这 些 数据 集 提 
供 了 各 种 可 视 化 的 挑战 。 

在 开始 画图 之 前 ， 必 须 确保 在 计算 机 上 安装 可 ggplot2 包 和 car 包 。 我 们 也 需要 安装 
griqdExtra 包 。 这 个 包 可 以 使 你 将 多 个 ggplot2 所 绘图 形 放 在 一 个 图 中 ( 参见 19.7.4 节 )。 


19.2 ggplot2 包 介 绍 


ogplot2 包 实现 了 一 个 在 R 中 基于 全 面 一 致 的 语法 创建 图 形 时 的 系统 。 这 提供 了 在 R 中 夯 图 
时 经 常 缺 乏 的 图 形 创造 的 一 致 性 并 允许 我 们 创建 具有 创新 性 和 新 颖 性 的 图 表 类 型 。 在 这 一 节 中 ， 
我 们 将 首先 回顾 ggplot 2 的 语法 ， 接 下 来 进行 详细 介绍 。 
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在 ggplot2 中 ， 图 是 采用 串联 起 来 (+ ) 号 函数 创建 的 。 每 个 函数 修改 属于 自己 的 部 分 。 下 
面 给 出 了 一 个 最 简单 的 例子 (参见 图 19-1 ): 














library (ggplot2) 
ggplot (data=mtcars, aes (x=wt, y=mpg)) + 

geom point() + 

labs (title="Automobile Data", x="Weight", y="Miles Per Gallon") 
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图 19-1 汽车 重量 与 里 程 的 散 点 图 








让 我 们 分 解 作 图 的 步骤 。ggplot () 初始化 图 形 并 且 指 项 要 用 到 的 数据 来 源 ( mtcars ) 和 变量 (wt、 
mpg )。aes () 函数 的 功能 是 指定 每 个 变量 扮演 的 角色 (aes 代表 aesthetics， 即 如 何 用 视觉 形式 呈 
现 信息 )。 在 这 里 ， 变 量 wt 的 值 映射 到 沿 x 轴 的 距离 ， 变 量 mpg 的 值 映射 到 沿 y 轴 的 距离 。 
ggplot () 函数 设置 图 形 但 没有 自己 的 视觉 输出 。 使 用 一 个 或 多 个 几何 函数 向 图 中 添加 了 几何 
对 和 象 (简写 为 geom )， 包 括 点 、 线 、 条 、 箱 线 图 和 阴影 区 域 。 在 这 个 例子 中 ，geom_point () 函数 
在 图 形 中 画 点 ， 创 建 了 一 个 散 点 图 。1abs () 函数 是 可 选 的 ， 可 添加 注释 (包括 轴 标 签 和 标题 )。 
在 ggplot2 中 有 很 多 的 函数 , 并 且 大 多 数 包 含 可 选 的 参数 。 扩展 一 下 前 面 的 例子 , 代码 如 下 : 




















library (ggplot2) 
ggplot (data=mtcars, aes (x=wt, y=mpg)) + 
geom point (pch=17, color="blue", size=2) + 
geom_ smooth(method="lm", color="red", linetype=2) + 
labs (title="Automobile Data", x="Weight", y="Miles Per Gallon") 
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产生 的 图 形 如 图 19-2 所 示 。 
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图 19-2 ”汽车 重量 与 汽 } 














里 程 的 散 点 图 ， 它 





门 的 最 佳 拟 合 线 及 其 95% 的 置信 区 间 











选用 geom_point () 图 数 来 设置 点 的 形状 为 三 角形 (pch=17 )， 点 的 大 小 加 倍 ( size=2 )， 
并 使 颜色 为 蓝 色 ( color="blue" )。geom_smooth () 函数 增加 了 一 条 “ 平 请 ”曲线 。 这 里 需要 











线性 拟 合 (methoq="lm" )， 并 且 产 生 一 条 红色 (color="red" ) 虚线 ( Linetype=2 )， 线 条 
尺寸 为 1 (size=1 )。 默 认 情 况 下 ， 平 滑 的 曲线 包括 在 95% 的 置信 区 间 ( 较 暗 带 ) 内 。 我 们 将 在 
19.6 节 中 详细 探讨 线性 拟 合 和 非 线性 拟 合 模型 关系 的 更 多 细节 。 

ggplot2 包 提供 了 分 组 和 小 面 化 ( faceting ) 的 方法 。 分 组 指 的 是 在 一 个 图 形 中 显示 两 组 或 多 






































图 形 上 显示 观察 组 。ggplot2 包 在 定义 组 或 面 时 使 用 








组 观察 结果 。 小 面 化 指 的 是 在 单独 、 并 排 的 
因子 。 

我 们 可 以 使 用 mtcars 数 据 集 来 查看 分 旨 

mtcars$am <- factor(mtcars$am, leve 

label 

mtcars$vs <- factor(mtcars$vs, leve 


labels=c("V-Engine", 


mtcars$cyl <- factor (mtcarss$cyl) 
接 下 来 ， 利 用 下 面 的 代码 绘图 : 


library (ggplot2) 
ggplot (data=mtcars, 





aes (x=hp, y=mpg 


有 和 面 。 首 先 ， 将 am、vs 和 cy1 变 量 转化 为 因子 : 
e601) 

s=c("Automatic", "Manual")) 

放生 让 -和 


"Straight Engine")) 


’ 
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shape=cyl, color=cyl)) + 

geom point (size=3) + 

facet_grid(am~vs) + 

labs (title="Automobile Data by Engine Type", 
x="Horsepower", y="Miles Per Gallon") 


效果 图 (参见 图 19-3 ) 包含 变速 箱 类 型 ( 自动 对 手动 ) 和 发 动机 装置 (V 型 发 动机 与 直列 式 发 动 
机 ) 每 个 组 合 的 分 离 的 散 点 图 。 每 个 点 的 颜色 和 形状 表示 该 汽车 发 动机 汽 氏 的 数量 。 在 本 例 中 ， 


am 和 vs 是 刻 面 变量 ，cy1 是 分 组 变量 。 





























Automobile Data by Engine Type 
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图 19-3” 散 点 图 显示 变速 箱 的 马力 和 发 动机 类 型 的 油耗 之 间 的 关系 。 每 个 汽车 发 动机 
汽 氏 的 数量 由 形状 和 颜色 表示 


ggplot2 很 强大 ， 能 够 创建 各 种 各 样 的 信息 图 。 它 在 老练 的 R 分 析 师 和 程序 员 中 很 受 欢 迎 ; 
由 于 R 博 客 和 讨论 组 的 相关 文章 ， 它 的 流行 性 也 在 增长 。 

不 幸 的 是 ， 强 大 也 带 来 了 复杂 性 。 不 像 其 他 的 R 包 ，ggplot2 凭 借 其 自身 就 可 以 被 认为 一 种 
是 综合 图 形 编程 语言 。 它 有 自己 的 学 习 曲 线 ， 有 时 这 个 曲线 比较 陡 ; 但 是 坚持 住 , 这 些 努 力 都 是 
值得 的 。 幸 运 的 是 , 它 里 面 有 默认 的 设置 和 语言 的 简化 设计 , 这 也 使 得 我 们 对 其 的 介绍 变 得 容易 。 
通过 练习 ， 你 可 以 通过 仅仅 几 行 代码 创建 一 系列 有 意思 和 有 用 的 图 形 。 

我 们 会 首先 介绍 几何 函数 及 其 能 够 创建 的 图 形 类 型 ， 然 后 详细 了 解 aes ( ) 函数 ， 以 及 如 何 利 
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用 它 来 对 数据 进行 分 组 。 接 下 来 ,我们 将 考虑 刻 面 和 网 格 图 形 的 建立 。 最 后 ,我 们 将 研究 如 何 调 
整 ggplot2 图 形 的 外 观 , 包括 修改 坐标 轴 和 图 例 、 改 变 配 色 方 案 以 及 添加 注释 。 本 章 在 最 后 为 大 
家 提供 了 更 多 的 资源 ， 帮 助 你 熟练 掌握 ggplot2。 


19.3 ”用 几何 函数 指定 图 的 类 型 


ggplot () 函数 指定 要 绘制 的 数据 源 和 变量 ， 几 何 函 数 则 指定 这 些 变 量 如 何在 视觉 上 进行 表 
示 ( 使 用 点 、 条 、 线 和 阴影 区 )。 目 前 ， 有 37 个 几何 函数 可 供 使 用 。 表 19-2 列 出 了 比较 常见 的 几 
何 函 数 ， 以 及 经 常 使 用 的 选项 。 这 些 选项 在 表 19-3 中 有 详细 描述 。 


表 19-2 ”几何 函数 






















































































函 数 添 加 选 项 
geom_bar () 条 形 图 color、 fill、alpha 
geom_ boxplot () 箱 线 图 color、 fill、 alpha、 notch、 width 
geom density() 密度 图 color、 fill、 alpha、 linetype 
geom_ histogram() 直方 图 color, fill、 alpha, linetype, binwidth 
geom_ hline() 水 平 线 color、 alpha、 linetype、 size 
geom_ jitter() 抖动 点 color、size、alpha、shape 
geom_line() 线 图 colorvalpha、 linetype、size 
geom_point () 散 点 图 color、alpha、shape、size 
geom_rug() 地 毯 图 color、side 
geom_smooth() 拟 合 曲线 method、 formula、 color, fill、 linetype、 size 
geom_ text () 文字 注解 很 多 ， 参 见 函 数 的 “帮助 ” 
geom violin() 小 提琴 图 color, fill、 alpha, linetype 
geom_ vline() 垂 线 color、 alpha、 linetype、size 





本 书 中 描述 的 大 多 数 图 形 可 以 使 用 表 19-2 中 的 几何 函数 创建 。 例 如 ， 代 码 : 


datal(singer, package="lattice") 
ggplot (singer, aes (x=height)) + geom histogram() 


产生 如 图 19-4 所 示 的 直方 图 ， 并 且 代 码 : 

ggplot (singer, aes (x=voice.part, y=height)) + geom boxplot() 
产生 如 图 19-5 所 示 的 箱 线 图 。 

从 图 19-5 中 可 以 看 出 ,低音 歌唱 家 比 高 音 歌 唱 家 身高 更 高 。 虽然 性 别 没有 测量 在 内 , 但 是 它 
也 许 起 了 很 大 的 作用 。 

需要 注意 的 是 ， 创 建 直方 图 时 只 有 变量 x 是 指定 的 ， 但 创建 箱 线 图 时 变量 x 和 y 都 需要 指定 。 
geom_histgrom() 函数 在 y 变 量 没 有 指定 时 默认 对 ) 轴 变量 计数 。 上 有 具体 细节 可 以 参阅 每 个 函数 的 
详细 信息 和 更 多 示例 文件 。 每 个 的 几何 函数 具有 一 组 可 以 用 来 修改 它 的 表示 的 选项 。 常见 的 选项 
列 在 表 19-3 中 。 
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图 19-4 ”歌手 身高 的 直方 图 


时 bd 


60- 


count 








height 


1 1 0 i 1 ' ' 1 
Bass 2 Bass 1 Tenor2 Tenor1 Alto 2 Alto 1 Soprano 2 Soprano 1 
voice.part 


图 19-5” 按 发 音 分 的 歌手 的 身高 的 箱 线 图 

















表 19-3 ”几何 函数 的 常见 选项 





































































































































































































选 项 详 述 

color 对 点 、 线 和 填充 区 域 的 边界 进行 着 色 

fill 对 填充 区 域 着 色 ， 如 条 形 和 密度 区 域 

alpha 颜色 的 透明 度 ， 从 0 (完全 透明 ) 到 1 (不 透明 )。 

linetype 图案 的 线条 (1= 实 线 ，2= 虚 线 ，3= 点 ，4= 点 破 折 号 ，5= 长 破 折 号 ，6= 双 破 折 号 ) 

size 点 的 尺寸 和 线 的 宽度 

shape 点 的 形状 (和 pch 一 样 ，0= 开 放 的 方形 ，1= 开 放 的 圆 形 ，2= 开 放 的 三 角形 ， 等 等 )， 参 见 图 3-4 

position 绘制 诸如 条 形 图 和 点 等 对 象 的 位 置 。 对 条 形 图 来 说 ，"dodge" 将 分 组 条 形 图 并 排 ，"stacked" 堆 县 分 
组 条 形 图 ，"fil11" 垂 直 地 堆 受 分 组 条 形 图 并 规范 其 高 度 相等 。 对 于 点 来 说 ，"jitter" 减 少 点 重 倒 

binwidth 直方 图 的 宽度 
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( 续 ) 
选 项 详 述 
notch 表示 方块 图 是 否 应 为 缺口 (TRUE/FALSE) 
sides 地 我 图 的 安置 ("pb"= 底 部 ，"1"= 左 部 ，"t "= 顶部 ，"r"= 右 部 ，"bl"= 左 下 部 ， 等 等 ) 
width 箱 线 图 的 宽度 





我 们 可 以 使 用 salaries 数 据 集 来 验证 这 些 选项 的 使 用 ， 代 码 如 下 : 


datal(Salaries, package="car") 
library (ggplot2) 
ggplot (Salaries, aes (x=rank, y=salary)) + 
geom boxplot (fill="cornflowerblue", 
color="black", notch=TRUE)+ 
geom point (position="jitter", color="blue", alpha=.5)+ 
geom rug(side="1", color="black") 


产生 的 结果 如 图 19-6 所 示 。 该 图 显示 了 不 同学 术 地 位 对 应 薪水 的 缺口 箱 线 图 。 实际 的 观察 值 ( 教 
师 ) 是 重 倒 的， 因而 给 予 一 定 的 透明 度 以 避免 谈 挡 箱 线 图 。 它 们 还 拌 动 以 减少 重合 。 最 后 , 一 个 
地 牧 图 设置 在 左 侧 以 指示 薪水 的 一 般 扩 散 。 
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图 19-6 按 排 名 来 描述 大 学 教授 薪水 的 有 受 加 点 的 缺口 箱 线 图 。 在 纵 轴 上 画 出 了 一 个 
地 毯 图 





在 图 19-6 中 ,我 们 可 以 看 到 助理 教授 、 副 教授 和 教授 的 工资 有 显著 的 不 同 ( 有 一 个 在 箱 形 图 
组 口 没有 重合 )。 此 外 ， 在 薪水 方面 等 级 越 高 方差 越 大 ; 教授 的 薪水 变化 很 大 。 事 实 上 ， 至 少 




















-~ 


410 第 19 章 使 用 ggplot2 进行 高 级 绘图 




















以 看 出 )。 我 在 职业 生涯 的 早期 就 已 经 是 一 名 教授 了 ， 但 是 数据 显示 我 的 工资 显然 是 过 低 的 。 
当 几 何 函 数组 合 形成 新 类 型 的 图 时 ，ggplot2 包 的 真正 力量 就 会 得 到 展现 。 让 我 们 回 到 
singer 数 据 集 中 ， 运 行 如 下 代码 : 
library (ggplot2) 
data(singer, package="lattice") 
ggplot (singer, aes (x=voice.part, y=height)) + 
geom violin(fill="lightblue") + 
geom boxplot (fill="lightgreen", width=.2) 
该 代码 把 箱 线 图 和 小 提琴 图 结合 在 一 起 形成 一 个 新 的 图 形 ( 展示 在 图 19-7 中 )。 箱 线 图 展示 了 在 
singer 数 据 框 中 每 个 音 部 的 25%、50% 和 75% 分 位 数 得 分 和 任意 的 异常 值 。 对 于 每 个 声 部 身高 范 
围 上 的 得 分 分 布 ， 小 提 其 图 展示 了 更 多 视觉 线索 。 
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图 19-7 ”每 个 声 部 歌手 身高 的 小 提琴 图 和 箱 线 图 组 合 


在 本 童 接 下 来 的 部 分 ， 我们 将 使 用 几何 函数 来 创建 广泛 的 图 表 类 型 。 让 我 们 先 以 分 组 开 
在 一 个 图 中 展示 多 个 分 组 观察 值 。 




















始 








19.4 分 组 


为 了 理解 数据 ， 在 一 个 图 中 画 出 两 个 或 更 多 组 的 观察 值 通常 是 很 有 帮助 的 。 在 R 中 ， 组 通常 
用 分 类 变量 的 水 平 〈 因 子 ) 来 定义 。 分 组 是 通过 ggplot2 图 将 一 个 或 多 个 带 有 诸如 形状 、 颜 色 、 
页 充 、 尺 寸 和 线 类 型 的 视觉 特征 的 分 组 变量 来 完成 的 。ggplot () 声 明 中 的 aes () 函数 负责 分 配 
变量 ( 图 形 的 视觉 特征 )， 所 以 这 是 一 个 分 配 分 组 变量 的 自然 的 地 方 。 

让 我 们 用 分 组 来 探讨 salaries 数 据 集 。 数 据 框 包含 的 信息 是 在 2008~2009 学 年 大 学 教授 的 薪 
水 。 变 量 包括 rank (助理 教授 、 副 教授 、 教 授 )、sex (女性 、 男 性 )、yrs.since.phda (获得 
博士 学 位 年 数 )、yrs .service (工龄 ) 和 salary (以 美元 计 的 九 个 月 薪水 )。 

首先 ， 你 可 以 查看 薪水 是 如 何 随 学 术 等 级 变化 的 。 代 码 : 

data(Salaries, package="car") 

library (ggplot2) 


ggplot (data=Salaries, aes (x=salary, fill=rank)) + 
geom density (alpha=.3) 


在 同一 幅 图 中 画 出 了 三 条 密度 曲线 ( 每 条 曲线 代表 一 个 学 术 等 级 ) 并 用 不 同 的 颜色 来 区 分 。 填 充 
的 设置 有 些 透 明度 (alpha ), 使 重 闪 曲线 不 掩盖 彼此 。 颜色 也 相互 结合 来 提高 加 入 地 区 的 可 视 化 。 
图 形 结果 见 图 19-8。 值 得 注意 的 是 图 例 是 自动 产生 的 。 在 19.7.2 节 ,我们 将 学 到 如 何 自 定义 分 组 
数据 的 图 例 。 
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图 19-8 ”以 学 术 等 级 分 组 的 大 学 薪水 的 密度 图 
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薪水 随 着 等 级 的 增长 而 增长 , 但 是 重 炙 比较 明显 ， 








比如 一 些 助理 教授 与 副教授 或 教授 的 薪水 


相同 。 随 着 学 术 等 级 的 增长 ， 薪 水 的 范围 也 在 扩大 。 对 于 教授 而 言 尤 其 如 此 ， 他 们 的 收入 差距 很 

















大 。 把 这 三 个 分 布 放 在 同一 幅 图 上 方便 了 组 间 的 比较 。 


接 下 来 ,我 们 通过 性 别 和 学 术 等 级 分 组 ， 绘 制 获得 博士 学 位 年 数 与 薪水 的 关系 : 


ggplot (Salaries, 


shape=sex)) + geom point() 


aes (x=yrs.since.phd, y=salary, 


Color=rank, 


在 结果 图 中 ( 图 19-9 )， 学 术 等 级 用 点 的 颜色 来 表示 ( 红色 代表 助理 教授 ,绿色 代表 副教授 ， 蓝 
色 代 表 教 授 )。 除 此 之 外 ,性 别 用 点 的 形状 来 表示 ( 圆 形 代表 女性 ， 三 角形 代表 男性 )。 如 果 看 到 
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的 是 灰 度 图 像 , 颜色 差异 可 能 很 难看 出 来 ,最 好 尝试 运行 一 下 自己 的 代码 。 需 要 注意 图 例 还 是 自 























rank 

e AsstProf 
® AssocProf 
e Prof 


sex 
e Female 
4 Male 

















图 19-9 ”博士 毕业 年 数 和 薪水 的 散 点 











图 。 学 术 等 级 











形状 表示 


从 图 中 可 以 看 出 ， 薪 水 随 着 毕业 年 数 的 增加 而 增加 ， 








了 三 个 条 形 图 的 变化 ， 图 形 结果 见 图 19-10: 


不 同 的 颜色 表示 ， 性 别 用 不 同 的 

















但 是 它们 之 间 的 关系 绝对 不 是 线性 的 。 


最 后 , 你 可 以 用 一 个 分 组 的 条 形 图 按 学 术 等 级 和 性 别 来 可 视 化 教授 的 人 数 。 下 面 的 代码 提供 
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ggplot (Salaries, aes (x=rank, fill=sex)) + 
geom bar (position="stack") + labs (title='position="stack"') 


ggplot (Salaries, aes (x=rank, fill=sex)) + 
geom bar (position="dodge") + labs (title='position="dodge"') 


ggplot (Salaries, aes (x=rank, fill=sex)) + 








geom bar (position="fill") + labs (title='position="fill"') 
position="stack" position="dodge" position="fill" 
250“ 1.00 5 
200 
200 0.75 
= 吧 150 J 
3 3 站 oo | 
[el a RQ 0 
9° ie 9 国 -enae 
100 “ 
Male 
025 9 
50 “ 
.IE EGG 加 ,= a 
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图 19-10 分 组 条 形 图 的 三 个 版 本 。 每 个 展示 了 按 学 术 等 级 和 性 别 划 分 的 教授 数量 


图 19-10 中 的 图 强调 了 数据 的 不 同方 面 。 从 前 两 个 图 中 可 以 明显 看 出 教授 的 人 数 大 于 其 他 学 术 等 
级 的 人 数 。 除 此 之 外 ,女性 教授 的 人 数 比 女性 助理 教授 和 副教授 的 人 数 要 多 。 第 三 个 图 表示 即使 
女性 的 总 数 更 大 ， 但 是 女性 教授 在 教授 中 的 比重 远 远 小 于 其 他 两 组 。 

值得 注意 的 是 ， 第 三 个 图 形 中 y 轴 的 标签 是 错误 的 ， 它 应 该 是 比例 ( proportion ) 而 不 是 数量 
(count )。 我 们 可 以 通过 添加 y="proportion" 参 数 到 1]abs () 函数 来 解决 。 

选项 可 以 通过 不 同 的 方式 使 用 ,这 取决 于 它们 发 生 在 aes () 函数 的 内 部 还 是 外 部 。 让 我 们 看 
看 下 面 的 例子 并 猜 猜 这 些 代 码 能 实现 什么 功能 : 

ggplot (Salaries, aes (x=rank, fill=sex))+ geom bar() 


ggplot (Salaries, aes (x=rank)) + geom bar (fill="red") 
ggplot (Salaries, aes (x=rank, fill="red")) + geom bar() 


在 第 一 个 例子 中 ，sex 变 量 通过 条 形 图 中 的 填充 颜色 来 展示 。 在 第 二 个 例子 中 ， 每 个 条 形 图 都 用 
红色 来 填充 。 在 第 三 个 例子 中 , ggplot2 假 定 "rea" 是 变量 的 名 字 , 并 且 你 得 到 一 个 意 想不到 (不 
希望 ) 的 结果 。 通 常 来 说 ， 变 量 应 该 设 在 aes () 函数 内 ,分 配 常数 应 该 在 aes () 函数 外 。 


19.5 ” 刻 面 


如 果 组 在 图 中 并 排出 现 而 不 是 重 二 为 单一 的 图 形 ， 关 系 就 是 清晰 的 。 我 们 可 以 使 用 
facet_wrap() 子 数 和 facet_grid() 函数 创建 网 格 图 形 (在 ggplot2 中 也 称 刻 面 图 )。 表 19-4 
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给 出 了 相关 的 语法 ， 其 中 var、rowvar 和 colvar 是 因子 。 
























































表 19-4 ggplot2 的 刻 面 图 函数 
语 法 结果 
aetna (~Vvar, 将 每 个 var 水 平 排列 成 nz 列 的 独立 图 
ncol=n 
facet_wrap (~var， 将 每 个 var 水 平 排列 成 n 行 的 独立 图 
nrow=n) 
facet_grid(rowvar~colva rowvar 和 colvar 组 合 的 独立 图 ， 其 中 rowvar 表 示 行 ，colvar 表 示 列 
r 
facet_grid (rowvar~.) 每 个 rowvar 水 平 的 独立 图 ， 配 置 成 一 个 单列 
facet_grid(.~colvar) 每 个 colvar 水 平 的 独立 图 ， 配 置 成 一 个 单行 














回头 看 一 下 合唱 的 例子 ， 我 们 可 以 使 用 下 面 的 代码 创建 一 个 刻 面 图 : 


data(singer, package="lattice") 
library (ggplot2) 


ggplot (data=singer, aes (x=height)) + 
geom histogram() + 
facet_ wrap(~voice.part, nrow=4) 


得 到 的 图 ( 图 19-11 ) 展示 了 各 声 部 歌手 身高 的 分 布 。 把 八 个 分 布 分 为 并 排 的 小 图 可 以 方便 
比较 。 
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图 19-11 


刻 玫 











i 图 展示 了 歌手 声 部 高 度 的 分 布 ( 直方 图 ) 
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作为 第 二 个 例子 ,我们 创建 一 个 包含 刻 面 和 分 组 的 图 : 


library (ggplot2) 
ggplot (Salaries, aes (x=yrs.since.phd, y=salary, color=rank, 
shape=rank)) + geom point() + facet_ grid(.~sex) 








结果 展示 在 图 19-12 中 。 它 包含 了 相同 的 信息 ,但 是 独立 的 刻 面 图 使 其 更 容易 理解 。 
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yrs.since.phd 
图 19-12 ”毕业 年 数 和 薪水 的 散 点 图 。 学 术 等 级 用 颜色 和 形状 来 表示 ， 性 别 是 刻 面 的 


最 后 ， 试 着 展示 singez 数 据 集中 每 个 声 部 成 员 的 身高 分 布 ， 并 利用 核 密度 图 水 平 排列 。 给 
每 个 声 部 分 配 不 同 的 颜色 。 一 个 解决 方案 如 下 : 

datal(singer, package="lattice") 

library (ggplot2) 

ggplot (data=singer, aes (x=height, fill=voice.part)) + 


geom density() + 
facet_grid(voice.part~.) 


结果 展示 在 图 19-13 中 。 
值得 注意 的 是 横向 排列 便于 组 间 比 较 。 虽 然 颜色 不 是 必要 的 ,但 它们 可 以 帮助 区 分 图 形 。( 如 
果 你 看 到 的 是 灰 度 图 ， 一 定 要 亲自 尝试 这 个 例子 )。 









































注意 可 能 会 奇怪 为 什么 这 个 密度 图 的 图 例 中 包括 带 对 角 线 的 黑 框 。 这 是 因为 你 可 以 控制 密 
i td tS Np 
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图 19-13 ”各 声 部 歌手 身高 的 刻 面 密度 








从 


19.6 ”添加 光滑 曲线 


ggplot2 包 包含 了 一 系列 计算 统计 的 函数 来 加 到 图 形 中 。 这 些 包 括 分 级 数据 和 计算 密度 、 轮 
廊 和 分 位 数 功 能 等 。 这 一 部 分 我 们 将 着 重 分 析 一 下 添加 平滑 曲线 ( 线性 、 非 线性 和 非 参 数 ) 到 散 
点 图 中 的 方法 。 

我 们 可 以 使 用 geom_smooth () 函数 来 添加 一 系列 的 平滑 曲线 和 和 置信 区 域 。 带 有 置信 区 域 
的 线性 回归 的 例子 可 以 参考 图 19-2。 隐 数 的 参数 参见 表 19-5。 


表 19-5 geom_smooth () 函数 
选 项 描述 
method= 使 用 的 平滑 函数 。 人 允许 的 值 包括 lm、glm、smooth、rlm 和 gam， 分 别 对 应 线性 、 广 义 线性 、loess、 
健壮 线性 和 广义 相 加 模型 。smooth 是 默认 值 
formula= 在 光滑 函数 中 使 用 的 公式 。 例 子 包括 y~x (默认 )，y~log (x) ,y~poly (x,n) 表示 n 次 多 项 式 拟 合 
































y~ns (x,n) 表示 一 个 具有 n 个 自由 度 的 样 条 拟 合 
se 绘制 置信 区 间 (TRUE/FALSE)。 默 认为 TRUE 
level 使 用 的 置信 区 间 水 平 (默认 为 95%) 








fullrange ”指定 拟 合 应 涵盖 全 图 (TRUE) 或 仅仅 是 数据 (FALSE)。 默认 为 FALSE 


使 用 salaries 数 据 集 ， 我 们 先 检验 博士 毕业 年 数 和 薪水 之 间 的 关系 。 在 这 个 例子 中 ,我们 
可 以 使 用 带 有 95% 置 信 区 间 的 非 参数 光滑 曲线 (loess )。 和 暂时 忽略 性 别 和 学 术 等 级 。 代 码 如 下 ， 
图 形 结果 见 图 19-14: 
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datal(Salaries, package="car") 

library (ggplot2) 

ggplot (data=Salaries, aes (x=yrs.since.phd, y=salary)) + 
geom_ smooth() + geom point() 


200000= 
































> 150000= 
Ee 
8 
50000= ， 
yrs.since.phd 
图 19-14 ”博士 毕业 年 数 与 目前 薪水 之 间 的 关系 。 加 上 了 一 个 带 有 95% 置 信 区 间 的 光滑 19 
曲线 




















图 形 显示 经 验 和 薪水 之 间 不 是 线性 的 关系 ， 至 少 在 毕业 时 间 很 长 的 时 候 是 这 样 。 
下 一 步 ， 我 们 按 性 别 拟 合 一 个 二 次 多 项 式 回归 (一 个 弯曲 ): 
ggplot (data=Salaries, aes (x=yrs.since.phd, y=salary, 
linetype=sex, shape=sex, color=sex)) + 
geom_smooth (method=lm, formula=y~poly (x,2), 


Se=FALSE, size=1) + 
geom point (size=2) 


置信 界限 被 抑制 ( se=FaALSE ) 来 简化 图 。 性 别 由 颜色 、 符 号 形状 和 线条 类 型 来 区 分 。 图 形 结果 
见 图 19-15。 
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图 19-15 ”男性 和 女性 博士 毕业 年 数 和 薪水 之 间 的 散 点 图 ， 带 有 二 次 拟 合 曲 线 
对 男性 来 说 ， 曲 线 从 0 增加 至 约 30 年 然后 下 降 。 对 女性 来 说 , 拟 合 曲线 从 0 到 40 年 一 直 呈 上 升 
趋势 。 在 数据 集中 没有 女性 获得 博士 学 位 超过 40 年 。 对 于 数据 集中 的 大 部 分 范围 ， 男 性 能 拿 到 更 
高 的 薪水 。 




















统计 函数 

在 杰 节 中 , 你 已 经 在 散 点 图 上 添加 了 平滑 曲线 。ggplot2 包 中 含有 大 量 统计 函数 来 计算 所 
需要 的 量 ,从 而 生产 更 多 的 可 视 化 数据 。 通 常情 况 下 ,几何 函数 隐 式 地 调用 统计 函数 ,我 们 不 
需要 直接 处 理 这 些 问题 。 不 过 知道 它们 的 存在 是 有 用 的 。 每 个 统计 函数 都 有 帮助 页 面 ， 可 以 帮 
助 我 们 了 解 几何 函数 是 如 何 工作 的 。 

例如 , geom_smooth ( ) 函数 依赖 于 stat_smooth () 函数 来 计算 画 出 一 个 拟 合 曲线 及 其 置 
信 限 所 需 的 数量 。 帮 助 页 面 对 于 geom_smooth () 函数 的 介绍 是 很 少 的 ， 但 对 stat_smooth () 
函数 的 介绍 包含 大 量 有 用 的 信息 。 在 探索 几何 函数 如 何 工 作 和 哪些 选项 可 供 选 择 时 , 一定 要 检 
查 这 个 函数 及 其 相关 统计 函数 。 


19.7 修改 ggplot2 图 形 的 外 观 


在 第 3 章 中 , 我 们 看 到 了 如 何 使 用 par () 函数 或 特定 画图 函数 的 图 形 参数 来 自 定义 基本 函数 。 
遗憾 的 是 , 改变 基本 图 形 参数 对 于 ggp1lot2 图 形 没有 影响 。 相 反 ，ggplot2 包 提供 了 特定 的 函数 
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来 改变 其 图 形 的 外 观 。 

在 本 节 中 , 我 们 将 使 用 几 个 函数 来 自 定义 ggplot2 的 图 形 外 观 。 我 们 将 学 习 如 何 自 定义 坐标 
轴 的 外 观 ( 范围 、 刻 度 和 刻度 标记 标签 )， 图 例 的 位 置 和 内 容 ， 变 量 值 的 颜色 。 我 们 也 将 学 习 如 
何 创建 特定 的 主题 〈 为 图 形 添加 统一 的 外 观 和 感觉 ) 以 及 在 一 个 图 中 管理 几 个 子 图 。 


19.7.1 坐标 轴 


ggplot2 包 会 在 创建 图 时 自动 创建 刻度 线 、 刻 度 标记 标签 和 坐标 轴 标 签 。 它 们 往往 看 起 来 不 
错 ， 但 是 有 时 我 们 需要 在 更 大 程度 上 控制 它们 的 外 观 。 我 们 已 经 知道 了 如 何 通 过 1abs () 函数 来 
添加 标题 并 改变 坐标 轴 标 签 。 在 本 节 中 ,我 们 将 自 定 义 轴 标 签 。 表 19-6 包 含 了 用 于 自 定义 坐标 轴 
的 函数 ， 非 常 有 用 。 





























表 19-6 ”控制 坐标 轴 和 刻度 线 外 观 的 函数 
函 数 选 项 
scale_x_continuous () 和 breaks= 指 定 刻度 标记 ，1abels= 指 定 刻度 标记 标签 ，1imits= 控 制 要 展示 的 值 的 范 

















scale_y_continuous () 
scale_x_discrete() 和 breaks= 对 因子 的 水 平 进行 放置 和 排序 ，1abels= 指 定 这 些 水 平 的 标签 ，1imits= 表 
scale_y qiscrete() 示 哪 些 水 平 应 该 展示 

coord_flip() 斯 倒 x 轴 和 ] 看 



































可 以 看 到 ，ggplot2 的 函数 区 分 x 轴 和 ) 轴 ， 以 及 轴线 是 否 代表 一 个 连续 或 离散 变量 ( 因子 )。 
让 我 们 将 这 些 函 数 应 用 到 一 个 分 组 箱 线 图 中 ， 其 中 包含 按 学 术 等 级 和 性 别 分 组 的 薪资 水 平 ， 
代码 如 下 : 


data(Salaries,package="car") 
library (ggplot2) 
ggplot (data=Salaries, aes (x=rank, y=salary, fill=sex)) + 
geom boxplot() + 
Scale x discrete(breaks=c("AsstProf", "AssocProf", "Prof"), 
labels=c("Assistant\nProfessor", 
"Associate\nPprofessor", 
"FUll\nProfessor")) + 
scale y_continuous (breaks=c(50000, 100000, 150000, 200000)，, 
labels=ce( "SOR SLOO0RKT, "TSTLSORK™.,. S200K")y :TF 
labs (title="Faculty Salary by Rank and Sex", x="", y="") 


结果 见 图 19-16。 








420 第 19 章 使 用 ggplot2 进行 高 级 绘图 





Faculty Salary by Rank and Sex 
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图 19-16” 按 学 术 等 级 和 性 别 分 组 的 薪资 水 平 的 箱 线 图 。 坐 标 轴 文本 已 经 自 定义 


很 明显 ,平均 收入 随 着 学 术 排 名 的 上 升 而 上 升 ,在 每 个 学 术 等 级 中 男性 的 薪资 水 平 高 于 女性 。 
( 要 得 到 一 个 更 完整 的 图 像 ， 可 以 试 着 控制 获得 博士 学 位 的 年 数 。) 











19.7.2 图例 


图 例 是 指出 如 何 用 颜色 、 形 状 、 尺 寸 等 视觉 特性 表示 数据 特征 的 指南 。ggplot2 包 能 自动 生 
成 图 例 ， 而 且 在 很 多 时 候 能 够 满足 我 们 的 需求 ; 但 是 在 其 他 时 候 ， 我 们 可 能 要 对 其 进行 自 定义 。 
标题 和 位 置 是 最 常用 的 定制 特征 。 

当 更 改 图 例 的 标题 时 ,必须 考 虑 图 例 是 否 基于 颜色 、 填 充 、 尺 寸 、 形 状 或 它们 的 组 合 。 在 图 
19-6 中 ,图 例 代表 fi11 审 美 ( 见 aes () 函数 ), 因此 我 们 可 以 通过 将 fi11="mytitle" 加 到 1abs () 
函数 中 来 改变 标题 。 

标题 的 位 置 由 theme () 函数 中 的 legend.position 选 项 控制 。 可 能 的 值 包括 "left"、 
"top"、"right" (默认 值 ) 和 "pottom"。 我 们 也 可 以 在 图 中 给 定 的 位 置 指 定 一 个 二 元 素 向 量 。 
调整 图 19-16 中 的 图 形 ， 使 图 例 出 现在 左上 角 并 且 将 标题 从 sex 变 为 Gender。 可 以 通过 下 面 的 代码 
来 完成 这 个 任务 : 

datal(Salaries,package="car") 

library (ggplot2) 

ggplot (data=Salaries, aes (x=rank, y=salary, fill=sex)) + 

geom boxplot() + 


scale x discrete(breaks=c("AsstProf", "AssocProf", "Prof"), 
labels=c("Assistant\nProfessor", 
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"Associate\npProfessor", 
"Full\nProfessor")) + 
scale y_continuous (breaks=c(50000, 100000, 150000, 200000)，, 
labels=o( SSO0R™, VSLOORKT,., Sl1S0RKT S200K"Y)- 本 
labs (title="Faculty Salary by Rank and Gender", 
X="", y="", fill="Gender") + 
theme (legend.position=c(.1,.8)) 


结果 如 图 19-17 所 示 。 


Faculty Salary by Rank and Gender 


Gender 
$200K- 三 | Female 
白 


Male 
$150K - 


$100K- 


$50K - 





1 r r 
Assistant Associate Full 
Professor Professor Professor 


图 19-17” 按 学 术 等 级 划分 的 薪水 的 箱 线 图 。 坐 标 轴 文本 、 图 例 的 标题 和 位 置 已 经 更 改 
在 这 个 例子 中 ， 图 例 的 左上 角 是 分 别 距离 左 侧 边 缘 10% 和 底部 边缘 80% 的 部 分 。 如 果 想 删除 


图 例 , 可 以 使 用 legend .position="none"。theme () 函数 能 改变 ggplot2 图 外 观 的 很 多 方面 ， 
其 他 的 例子 在 19.7.4 节 给 出 . 























19.7.3 标尺 


ggplot2 包 使 用 标尺 把 数据 空间 的 观察 值 映射 到 可 视 化 的 空间 中 。 标尺 既 可 以 应 用 到 连续 的 
变量 ,也 可 以 应 用 到 离散 的 变量 。 在 图 19-15 中 ， 一 个 连续 性 的 标尺 把 yrs .since .pha 变 量 的 数 
值 映射 到 x 轴 ， 同 时 将 salary 的 变量 映射 到 y 轴 。 

连续 型 的 标尺 可 以 映射 数值 型 的 变量 到 图 的 其 他 特征 。 思 考 如 下 代码 : 

ggplot (mtcars, aes (x=wt, y=mpg, size=disp)) + 

geom point (shape=21, color="black", fill="cornsilk") + 


labs (x="Weight", y="Miles Per Gallon", 
title="Bubble Chart", size="Engine\nDisplacement") 
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aes () 函数 的 参数 size=disp 生 成 连续 型 变量 daisp ( 发 动机 排 量 ) 的 标尺 ， 并 使 用 它 来 控制 点 











的 尺寸 。 结 果 参 见 如 图 19-18 所 示 的 气泡 图 。 从 该 图 中 可 以 看 出 汽车 里 程 随 重 量 和 发 动机 排 量 的 


降低 而 降低 。 
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图 19-18” 按 里 程 划 分 的 汽车 重量 的 气泡 图 。 点 的 大 小 代表 发 动机 排 量 




















在 这 个 离散 的 例子 中 , 可 以 使 用 标尺 将 带 有 因子 水 平 的 视觉 线索 ( 如 颜色 、 形状 、 线 条 类 1 





尺寸 和 透明 度 ) 关联 起 来 。 下 列 代码 : 


data(Salaries, package="car") 
ggplot (data=Salaries, aes (x=yrs.since.phd, y=salary, color=rank)) + 
scale_color manual (values=c ("orange", "olivedrab", "navy")) + 


geom point (size=2) 


使 用 scale_color_manual () 函数 来 设 定 三 个 学 术 等 级 的 点 的 颜色 ， 结 果 见 图 19-19。 
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图 19-19 ”薪水 与 助理 教授 、 副 教授 、 教 授 经 验 对 比 的 散 点 图 。 点 的 颜色 是 人 为 指定 的 

















如 果 和 我 一 样 是 色弱 〈 比如 分 不 清 橙色 和 紫色 )， 可 以 通过 scale_color_brewer() 和 9 


. . 
. - . 
." @ 
@ 
@ 四 
十 ® 。 
6 Ss . . 5 
Se 
ole 站 rank 
9 
a 一 3 一 一 二 二 一 一 e AsstProf 
Se . a es © @ eee 。 
2 。s ® AssocProf 
3。 1° 0 0 8 oe 
eo00 $。 8 。。 or ® Prof 
2 So。 e ®°%° ee .® ®。 
os ot . ® . eee 


. i eeeoe ee a ee 
ee 8 ee 区 提 @ . 
. 
238e ooo® @ . . 二 ~ 
. 
© 
. 

r I 
20 40 


yrs.since.phd 





scale_fill_brewer () 也 数 来 预先 指定 分 得 清 的 颜色 集 。 例 如 ， 尝 试 如 下 代码 : 





ggplot (data=Salaries, 


aes (x=yrs.since.phd, y=salary, color=rank)) + 


scale_color_brewer (palette="Set1") + geom point (size=2) 





看 看 运行 的 结果 。 把 palette="Set1" 用 其 他 的 值 ( 例如 vOEt2"s "et, "Pastell™ 
"pastel2"、"paired"、"Dark2" 或 "Accent" ) 来 代替 将 会 产生 不 同 的 颜色 方案 。 为 了 得 到 








可 获得 的 颜色 集 ， 可 以 使 用 : 


library (RColorBrewer) 
display.brewer.all () 


来 生成 一 个 显示 。 了 人 解 更 多 信息 ,可 以 查看 help (scale_color_brewer) 以 及 ColorBrewer 的 主 





页 (http://colorbrewer2.org )。 


在 gap1lot2 中 标尺 的 概念 很 普遍 。 我 们 可 以 控制 标尺 的 特征 ,这 里 不 再 详 述 。 可 以 通过 查看 
以 scale_ 开 头 的 函数 来 了 解 更 多 信息 。 


19.7.4 主题 


我 们 已 经 尝试 了 几 种 修改 ggplot2 中 特定 元 素 的 方法 。 主 题 可 以 让 我 们 控制 这 些 图 的 整体 外 
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观 。theme () 函数 中 的 选项 可 以 让 我 们 调整 字体 、 背 景 、 颜 色 和 网 格 线 等 。 主 题 可 以 使 用 一 次 ， 
也 可 以 保存 起 来 应 用 到 多 个 图 中 。 运 行 下 面 的 代码 : 


data(Salaries, package="car") 
library (ggplot2) 
mytheme <- theme (plot.title=element _ text (face="bold.italic", 
size="14", color="brown"), 
axis.title=element_text (face="bold.italic", 
size=10, color="brown"), 
axis.text=element_text (face="bold", size=9, 
color="darkblue"), 
panel .background=element_rect (fill="white", 
color="darkblue"), 
panel.grid.major.y=element_line(color="grey", 
linetype=1), 
panel.grid.minor.y=element_line(color="grey", 
linetype=2),， 
panel .grid.minor.x=element_blank(), 
legend.position="top") 


ggplot (Salaries, aes (x=rank, y=salary, fill=sex)) + 
geom boxplot() + 
labs (title="Salary by Rank and Sex", x="Rank", y="Salary") + 


mytheme 
将 + mytheme 加 到 绘图 声明 中 得 到 的 结果 见 图 19-20。 
Salary by Rank and Sex 
SeX S| Female 国 Male 
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Salary 
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图 19-20 具有 有 自 定义 主题 的 箱 线 图 


























主题 mytheme 指 定 了 图 的 标题 应 该 为 粗 和 斜体 的 棕色 14 号 字 。 轴 的 标题 为 粗 斜 体 的 棕色 10 号 字 。 坐 
标 轴 标 签 应 为 加 粗 的 深蓝 色 9 号 字 。 夯 图 区 域 有 日 色 的 填充 和 深蓝 色 的 边框 。 主 水 平 网 格 应 该 是 





I 
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灰色 的 实 线 ,次 水 平 网 格 应 该 是 灰色 的 虚线 ; 垂直 网 格 不 输出 ; 图 例 展示 在 图 的 顶部 。theme () 
函数 给 了 我 们 把 控 最 后 图 形 的 控制 权 。 可 以 参考 help (theme) 来 查看 更 多 关于 选项 的 信息 。 


19.7.5 ”多重 图 


在 3.5 节 中 ， 我 们 使 用 图 形 参 数 mfrow 和 基本 函数 layout () 把 两 个 或 更 多 的 基本 图 放 到 单个 
图 形 中 。 同 样 ， 这 种 方法 在 ggplot2 包 中 不 适用 。 将 多 个 ggplot2 包 的 图 形 放 到 单个 图 形 中 最 简 
单 的 方式 是 使 用 gridExtra 包 中 的 griqd.arrange() 函数 。 我 们 在 使 用 前 需要 事先 安装 这 个 包 
(install.packages ("gridExtra") ) . 


让 我 们 创建 三 个 ggp1lot2 图 并 把 它们 放 在 单个 图 形 中 。 下 面 给 出 相关 的 代码 : 


data(Salaries, package="car") 

library (ggplot2) 

pl <- ggplot (data=Salaries, aes (x=rank)) + geom bar() 

p2 <- ggplot (data=Salaries, aes (x=sex)) + geom bar() 

p3 <- ggplot (data=Salaries, aes (x=yrs.since.phd, y=salary)) + geom point() 










































































library (gridExtra) 
grid.arrange (pl, p2, p3, ncol=3) 


结果 见 图 19-21。 每 个 图 都 被 保存 为 一 个 对 象 ， 然 后 用 grid.arrange() 函数 保存 到 单个 图 形 中 。 
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图 19-21 将 三 个 ggplot2 图 放 到 单个 图 形 中 


值得 注意 的 是 截面 图 和 多 重 图 的 区 别 。 截面 图 基于 一 个 或 多 个 分 类 变量 创建 一 系列 的 图 。 在 
本 节 中 ,我 们 可 以 将 多 个 独立 的 图 绘制 到 单个 图 形 中 。 
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19.8 保存 图 形 


我 们 可 以 使 用 1.3.4 节 讨论 的 标准 方法 来 保存 由 ggplot2 创 建 的 图 形 ， 但 是 sgsave () 函数 能 
更 方便 地 保存 它 。 它 的 选项 包括 保存 哪 幅 图 形 ， 保 存在 哪里 和 以 什么 形式 保存 。 例 如 : 


myplot <- ggplot (data=mtcars, aes (x=mpg)) + geom_histogtram() 
ggsave (file="mygraph.png", plot=myplot, width=5, height=4) 


在 当前 路 径 下 将 myplot 保 存 为 名 为 mygraph.png 的 5 英寸 x4 英 寸 ( 12.7 厘 米 x10.2 厘 米 ) PNG 格 式 
的 图 片 。 我 们 可 以 通过 设 定 文 件 扩展 名 为 ps、tex、jpeg、pdf、tif、png、bmp、svg 或 wmf 来 保存 
为 不 同 的 格式 。wmf 文 件 仅 限 在 装 有 Windows 系 统 的 计算 机 中 保存 。 

如 果 和 忽略 plot= 选 项 ， 最 近 创建 的 图 形 会 被 保存 。 代 码 : 


ggplot (data=mtcars, aes (x=mpg)) + geom histogram() 
ggsave (file="mygraph.pdf") 


是 有 效 的 ， 并 把 图 形 保存 到 磁盘 。 更 多 细节 参见 help (ddqSsavVe) 。 






































19.9 小结 


本 章 回 顾 了 ggplot2 包 ， 它 提供 基于 图 形 综合 语法 的 先进 图 形 化 方法 。 这 个 包 旨 在 在 R 提 供 
的 基础 画图 之 外 提供 一 个 完整 而 全 面 的 替代 方案 。 它 提供 的 数据 可 视 化 方法 很 有 吸引 力 和 意义 ， 
用 其 他 方式 很 难 做 到 。 

ggplot2 包 学 习 起 来 可 能 有 些 困难 , 但 是 大 量 的 学 习 资 料 在 我 们 的 学 习 旅 程 (我 答应 过 自己 
永远 不 用 这 个 词 , 但 是 学 习 ggplot2 肯 定 会 有 这 种 感受 ) 中 会 帮 到 我 们 。 一 系列 ggplot2 的 函数 
及 相应 的 例子 可 以 在 http://docs.ggplot2.org 上 找到 。 要 学 习 ggplot2 内 部 的 理论 知识 ， 可 以 参阅 
Wickham (2009 ) 的 书 。Chang (2013 ) 曾经 写 过 一 本 非常 实用 的 书 ， 里 面 有 很 多 关于 ggp1lot2 
的 有 用 例子 。 我 推荐 把 Chang 的 书 作为 学 习 ggplot2 的 起 点 。 

我 们 现在 应 该 牢 牢 把 握 住 了 R 中 数据 可 视 化 的 多 种 方法 。 如 果 说 一 图 胜 千 言 ， 那 么 提供 了 上 
千 种 绘图 方法 的 R 必 定价 值 数 万 字 (或 达到 类 似 的 效果 )。 在 接 下 来 的 两 章 里 , 我 们 会 详细 研究 作 
为 编程 语言 的 R。 





















































高 级 编程 








本 章 内 容 

口 深入 挖 据 R 语 言 

口 利用 R 的 OOP 特 性 来 创建 泛 型 函数 
口 调整 代码 使 之 高 效 运行 

口 查找 和 纠正 编程 错误 











前 面 的 章节 介绍 了 对 应 用 开发 来 说 很 重要 的 主题 ， 包 括 数据 类 型 (2.2 节 )、 控 制 流 (5.4 节 ) 
和 函数 的 创建 〈5.5 节 )。 本 章 将 回顾 R 作 为 编程 语言 的 这 些 方面 ， 只 不 过 内 容 更 加 高 级 和 详细 。 
学 完 本 章 ， 你 会 对 R 语 言 的 工作 原理 有 一 个 更 清晰 的 认识 。 

在 转向 创建 函数 之 前 ,我们 驳回 顾 一 下 对 象 、 数 据 类 型 和 控制 流 的 概念 , 包括 范围 和 环境 的 
作用 。 本 章 介绍 面向 对 象 的 R 编 程 方法 并 且 探 讨 泛 型 函数 的 创建 。 最 后 ， 我 们 将 回顾 如 何 编写 高 
效 生成 和 调试 代码 的 应 用 程序 。 掌握 这 些 主题 将 有 助 于 你 理解 其 他 人 的 应 用 程序 代码 , 并 帮助 你 
创建 新 的 程序 。 在 第 21 章 里 ， 你 将 有 机 会 将 这 些 技能 付 诸 实践 ， 从 头 到 尾 创建 一 个 有 用 的 包 。 


20.1 R 语言 回顾 


R 是 一 种 面向 对 象 的 、 实 用 的 数组 编程 语言 , 其 中 的 对 象 是 专门 的 数据 结构 , 存储 在 RAM 中 ， 
通过 名 称 或 符号 访问 。 对 象 的 名 称 由 大 小 写字 母 、 数 字 0 ~ 9、 句 号 和 下 划 线 组 成 。 名 称 是 区 分 大 
小 写 的 ， 而 且 不 能 以 数字 开头 ; 句号 被 视 为 没有 特殊 含义 的 简单 字符 。 

不 像 C 和 C++ 语言 ,在 R 语 言 中 不 能 直接 得 到 内 存 的 位 置 。 可 以 被 存储 和 命名 的 数据 、 函 数 和 
其 他 任何 东西 都 是 对 象 。 另 外 ,名 称 和 符号 本 身 是 可 以 被 操纵 的 对 象 。 所 有 的 对 象 在 程序 执行 时 
都 存储 在 RAM 中 ， 这 对 大 规模 数据 分 析 有 显著 的 影响 。 

每 一 个 对 象 都 有 属性 : 元 信息 描述 对 象 的 特性 。 属 性 能 通过 attributes () 函数 罗列 出 来 并 
能 通过 attz () 函数 进行 设置 。 一 个 关键 的 属性 是 对 象 的 类 。 有 函数 使 用 关于 对 象 类 的 信息 来 确定 
如 何 处 理 对 象 。 可 以 使 用 class () 函数 来 读 取 和 设置 对 象 的 类 。 在 本 章 中 会 给 出 相关 的 例子 。 


20.1.1 数据 类 型 
有 两 种 最 基本 的 数据 类 型 原子 向 量 (atomic vector ) 和 泛 型 向 量 (generic vector )。 原 子 向 
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量 是 包含 单个 数据 类 型 的 数组 。 


为 它们 还 可 以 包含 其 他 列表 。 本 节 会 详细 讨论 这 两 种 类 型 


So 




















泛 型 向 量 也 称 为 列表 ， 是 原子 向 量 的 集合 。 列 表 是 递归 的 ， 


与 许多 语言 不 同 ， 在 R 中 不 必 声 明 对 象 的 数据 类 型 或 是 分 配 的 空间 。 数 据 的 类 型 由 对 象 的 内 




















型 和 元 素 的 数目 。 





容 隐 式 地 决定 ， 并 且 空 间 的 增 大 或 缩小 自动 取决 于 对 象 包含 的 类 

1. 原子 向 量 

原子 向 量 是 包含 单个 数据 类 型 ( 逻辑 类 型 、 实 数 、 复 数 、 字 符 串 或 原始 类 型 ) 的 数组 。 例 如 ， 
下 面 的 每 个 都 是 一 维 原子 向 量 : 

passed <- c(TRUE, TRUE, FALSE, TRUE) 

ages <- Cc(15, 18,; 25, 14, 19) 

cmplxNums <- c(1+2i, 0+1i, 39+3i, 12+2i) 

Names” < GC("BOBT, "Ted" "CaroLlt, TALiGCe') 











"raw" 类 型 的 向 量 包 含 原始 字 节 ， 我 们 在 这 里 不 作 讨论 。 
许多 R 的 数据 类 型 是 带 有 特定 
元 素 的 原子 向 量 ， 所 以 kx<- 2 是 k <- c (2) 的 简写 。 
算 阵 是 一 个 具有 维度 属性 (aim ) 的 原子 向 量 ， 
维 的 数字 向 量 x 开 始 : 
> x <- c(1,2,3,4,5,6,7,8) 
> class (x) 


[1] "numeric" 
> print (x) 















































Ed 2 3 .6. 78 
加 上 一 个 aim 属 性 : 
> attr 人 (ca. "dLm™) ce Cl{2 4) 
对 象 zx 现在 变 成 了 matrix 类 的 2x4 和 矩阵 : 
> print (x) 
[,1] [,2] [,3] [,4] 
站 3 尖 业 3 5 
-| 2 4 6 8 
> class (x) 
1] maktrix™ 
> attributes (x) 
Sdim 
41 这 忆 
行 名 和 列 名 可 以 通过 加 上 一 个 aimnames 属 性 得 到 : 
Sattr (x dimames™") < List (G(rALD .TAZ2T); 
和 和 人 


> DTTC) 

Bl B2 B3 B4 
4 “3 25 汉 
2 二 “6，- 没 


Al 
A2 


属性 的 原子 向 量 。 例 如 ，R 没 有 标量 型 数据 。 标 量 


"BA" 


三 


是 具有 单一 








包含 两 个 元 素 〈 行 数 和 列 数 ) 例如， 以 一 
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最 后 ， 和 矩阵 可 以 通过 去 除 qim 属 性 来 得 到 一 维 的 向 量 : 


> attr (x, "dim") <- NULL 
> class (x) 

[1] "numeric" 

> print (x) 

[EE] FL 7 


数组 是 有 一 个 具有 aim 属 性 的 原子 向 量 ， 其 中 包含 三 个 或 更 多 元 素 。 同 样 ， 你 可 以 用 aim 
性 来 设置 维度 ， 还 可 以 为 标签 荆 予 aimnames 属 性 。 与 一 维 向 量 一 样 ， 和 矩阵 和 数组 可 以 是 逻辑 类 
型 、 实 数 、 复 数 、 字 符 串 或 原始 类 型 ， 但 是 不 能 把 不 同 的 类 型 放 到 一 个 矩阵 或 数组 中 。 

attz() 函数 允许 你 创建 任意 属性 并 将 其 与 对 象 相关 联 。 属 性 存储 关于 对 象 的 额外 信息 ， 函 
数 能 够 用 属性 确定 其 处 理 方 式 。 

有 很 多 特定 的 孔 数 可 以 用 来 设置 属性 ,包括 dim() 、dimnames () .names () 、row.names () 、 
class() 和 tsp() 。 最 后 一 个 函数 用 来 创建 时 间 序 列 对 象 。 这 些 特殊 的 函数 对 设置 的 取 值 范 围 有 
一 定 的 限制 。 除 非 创 建 自 定义 属性 ,使 用 这 些 特 殊 函 数 在 大 部 分 情况 下 都 是 个 好 主意 。 它 们 的 限 
制 和 产生 的 错误 信息 使 得 编码 时 出 现 错误 的 可 能 性 变 少 ， 并 且 使 错误 更 明显 。 

2. 泛 型 向 量 或 列表 

列表 是 原子 向 量 和 /或 其 他 列表 的 集合 。 数 据 框 是 一 种 特殊 的 列表 ， 集 合 中 每 个 原子 向 量 都 
有 相同 的 长 度 。 在 安装 R 时 自 带 iris 数 据 框 ， 这 个 数据 框 描述 了 150 种 植物 的 四 种 物理 测度 及 其 


种 类 ( setosa 、versicolor 或 virginica ): 





























| 














































































































> head (iris) 
Sepal.Length Sepal.Width Petal.Length Petal.Width Species 














lt 5 号 1.4 0.2 setosa 
包 4.9 3529 .4 Os setosa 
3 在 3 沁 1 3 0.2 setosa 
4 4.6 3 La 0.2 setosa 
5 S520 3.6 1.4 0.2 setosa 
6 5.4 3.9 a 0.4 setosa 
这 个 数据 框 实际 上 是 包含 五 个 原子 癌 量 的 列表 。 它 有 一 个 names 属 性 ( 变量 名 的 字符 串 问 量 )， 


一 个 row.names 属 性 (识别 单个 植物 的 数字 向 量 ) 和 一 个 带 有 "data.frame " 值 的 c lass 属 性 。 
每 个 向 量 代表 数据 框 中 的 一 列 ( 变量 )。 这 可 以 很 容易 地 使 用 unclass () 打印 数据 框 看 到 ， 并 且 
可 以 用 attributes () 函数 得 到 数据 集 的 属性 : 


unclass (iris) 
attributes (iris) 


为 了 节省 空间 ， 输 出 值 在 这 里 省 略 了 。 
理解 列表 是 很 重要 的 ， 因 为 R 的 函数 通常 返回 列表 作为 值 。 让 我 们 看 一 个 使 用 了 第 16 章 中 聚 
类 分 析 技 巧 的 例子 。 聚 类 分 析 使 用 一 系列 方法 识别 观测 值 的 天 然 分 组 。 

你 可 以 使 用 K 均 值 聚 类 分 析 ( 16.3.1 节 ) 来 对 iris 数 据 进行 聚 类 分 析 。 假 定数 据 中 存在 三 类 ， 
观测 这 些 观测 值 ( 行 ) 是 如 何 被 分 组 的 。 你 可 以 忽略 种 类 变量 ( species variable )， 仅 仅 使 用 每 个 
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植物 的 物理 测度 来 聚 类 。 所 需 的 代码 是 : 


set.seed(1234) 
fit <- kmeans (iris[1:4], 3) 


对 象 fit 中 包含 的 信息 是 什么 ”kmeans () 函数 的 帮助 页 面 表明 该 函数 返回 一 个 包含 七 种 成 分 的 
列表 。str () 函数 展示 了 对 象 的 结构 ，unclass () 函数 用 来 直接 检查 对 象 的 内 容 。1length () 函 
数 展示 对 象 包含 多 少 成 分 ，names () 函数 提供 了 这 些 成 分 的 名 字 。 你 可 以 使 用 attributes () 函 
数 来 检查 对 象 的 属性 。 下 面 探讨 通过 kmeans ( ) 得 到 的 对 象 内 容 : 


> names (fit) 


























[1] "cluster" "centers" 和 "withinss" 
[5] "tot.withinss" "betweenss" "size" "和 
[9 EAL 


> unclass (fit) 


$scluster 
上 
[TO 
本 省 六 这 D2 这 [这 这 0 和 这 | 这 这 和 这 | 这 这 这 这 这 这 
下 2 2 3 3 
ELLST]. .32 D3 33 3 
[和 1 3 5 计 27 3 2 
Scenters 
Sepal.Length Sepal.Width Petal.Length Petal.Wwidth 
1 5.006 3.428 1.462 0.246 
Ss902 2 748 4.394 L344 
3 6.850 3.074 S742 2 0 
Stotss 
681.4 


Swithinss 
15.15 39.82: 23.;88 


Stot.withinss 
78.85 





$sbetweenss 
602.5 


ssize 
50 62 38 


Siter 
2 


$ifault 
0 


执行 sapply (fit，class) 返 回 该 类 每 个 成 分 的 对 象 : 
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> sapply (fit, class) 


cluster centers totss withinss tot.withinss 
"integer" i eb "numeric" "numeric" "numeric" 
betweenss size iter ifault 
"numeric" "integer" "integer" "integer" 























在 这 个 例子 中 ， cluster 是 包含 集群 成 员 的 整数 向 量 ，centers 是 包含 聚 类 中 心 的 矩阵 ( 各 个 类 
中 每 个 变量 的 均值 )。size 是 包含 三 类 中 每 一 类 植物 的 整数 向 量 。 要 了 解 其 他 成 分 ， 参见 
help (kmeans ) 的 value 部 分 。 

3. 索引 

学 会 理解 列表 中 的 信息 是 一 个 重要 的 R 编 程 技巧 。 任 何 数据 对 象 中 的 元 素 都 可 以 通过 索引 来 
提取 。 在 深入 列表 之 前 ， 让 我 们 先 看 看 如 何 提取 原子 向 量 中 的 元 素 。 

提取 元 素 可 以 使 用 object[index] ， 其 中 object 是 向 量 ，index 是 一 个 整数 向 量 。 如 果 原 
子 向 量 中 的 元 素 已 经 被 命名 ，jndex 也 可 以 是 这 些 名 字 中 的 字符 串 向 量 。 需 要 注意 的 是 ，R 中 的 
索引 从 1 开始 ， 而 不 是 像 其 他 语言 一 样 从 0 开始 。 

下 面 是 一 个 例子 ， 使 用 这 种 方法 来 分 析 没 有 命名 的 原子 变量 元 素 : 


> X <- c(20, 30, 40) 































































































了 | 

[1] 40 
| 
[1] 30 40 


对 于 有 命名 的 原子 变量 元 素 ， 可 以 使 用 : 


> 和 <- C(A=20, B=30, C=40) 





30 40 


对 列表 来 说 ， 可 以 使 用 object[index] 来 提取 成 分 (原子 向 量 或 其 他 列表 )， 其 中 index 是 一 个 
整数 和 向量。 下面 的 例子 使 用 了 后 面 代码 清单 20-1 中 kmeans 的 fit 对 象 : 


EGG 











$scenters 

Sepal.Length Sepal.Width Petal.Length Petal.Width 
1 5.006 3.428 1.462 0.246 
2 S902 2 .748 :3394 下 入 3 水 
3 6.850 3.074 S742 2 二 
ssize 
[1] 50 62 38 





值得 注意 的 是 ， 返 回 的 是 以 列表 形式 出 现 的 成 分 。 
为 了 得 到 成 分 中 的 元 素 , 使 用 opject[[integer]]: 
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[2 
$scenters 
Sepal.Length Sepal.Width Petal.Length Petal.Wwidth 
a Sn006 2 1.462 0.246 
S902 2.748 4.394 1.434 
3: 6.850 3.074 5.742 5071 
Sf£3 必 [21] 
Sepal.Length Sepal.Width Petal.Length Petal.Wwidth 
1 5.006 3.428 1.462 0.246 
5.590 之 2.748 4.394 :34 
3: 6.850 3074 5 .742 2.071 




















在 第 一 个 例子 中 , 返回 的 是 一 个 列表 。 在 第 二 个 例子 中 , 返回 的 是 一 个 矩阵 。 取 决 于 你 对 结果 的 
操作 ， 这 种 区 别 是 很 重要 的 。 如 果 想 把 得 到 的 结果 作为 一 个 矩阵 输入 ， 应 该 使 用 双 括 号 。 

如 果 想 获取 单个 的 命名 成 分 ， 可 以 使 用 $ 符 号 。 在 这 种 情况 下 ，opyect[[intecer]] 和 
objectsname 是 等 价 的 : 


> fitScenters 
Sepal.Length Sepal.Width Petal.Length Petal.Wwidth 

















1 5.006 3.428 1.462 0.246 
525902 2.748 4.394 1.434 
3 6.850 3.074 5.742 :071 


这 也 解释 了 为 什么 符号 也 可 以 在 数据 框 中 进行 操作 。 查 看 iris 的 数据 框 ， 这 个 数据 框 是 列表 的 
一 种 特殊 情况 , 在 这 里 每 个 变量 被 看 作 一 个 成 分 。 那 就 是 为 什么 irisssepal .Length 会 返回 150 
个 元 素 向 量 的 莹 片 长 度 。 

可 以 组 合 这 些 符号 以 获得 成 分 内 的 元 素 ， 例 如 : 

> £1it [2] [17] 


Sepal.Length Sepal.Width Petal.Length Petal.Width 
5.006 3.428 1.462 0.246 


提取 了 fit《〈 均 值 矩阵 ) 的 第 二 个 成 分 并 且 返 回 第 一 行 〈 第 一 类 中 四 个 变量 的 均值 )。 
通过 提取 函数 返回 的 成 分 和 列表 的 元 素 , 你 可 以 获得 结果 并 且 继 续 深 入 。 比 如 ,你 可 以 使 用 
下 面 的 代码 画 出 聚 类 中 心 的 线 几 。 


代码 清单 20-1 画 出 KR 均值 聚 类 分 析 的 中 心 

> Set .seedq(1234) 

fit <- kmeans (iris[1:4], 3) | 加 获取 聚 类 均值 

means <- fits$centers 
library (reshape2) 
dfm <- melt (means) 重 塑 数据 长 表 
names (dfm) <- c("Cluster", "Measurement", "Centimeters") 
dfmsCluster <- factor(dfm$sCluster) 
head (dfm) 





























VV Vv Vv VVvyV 


Cluster Measurement Centimeters 
J 1 Sepal.Length 5.006 
2 2 Sepal.Length 5 02 
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3 3 Sepal.Length 6.850 

4 1 Sepal.Wwidth 3.428 

5 2 Sepal.width 2.748 

6 3 Sepal.Width 3.:074 

library (ggplot2) 

ggplot (data=dfm, 
aes (x=Measurement, y=Centimeters, group=Cluster)) + 绘制 线 图 
geom point (size=3, aes (shape=Cluster, color=Cluster)) + 
geom_ line(size=1, aes (color=Cluster)) + 


ggtitle("Profiles for Iris Clusters") 


首先 ， 聚 类 中 心 的 矩阵 被 提取 出 来 〈 行 是 类 ， 列 是 变量 的 均值 ) @。 然后 矩 阵 通过 reshape 包 被 
重 塑 成 了 长 格式 (参见 5.6.2 节 ) @。 最后， 数据 通过 ggp1ot2 包 绘图 (参见 18.3 节 ) 合 。 结 果 如 
图 20-1 所 示 。 




















Profiles for Iris Clusters 


Cluster 
2 
o . =B= 1 
3 4 
后 wn 2 
& "Ee 3 
〇 





0 过 下 ' ' ' 
Sepal.Length Sepal.Width Petal.Length Petal.Width 


Measurement 
图 20-1 利用 K 均 值 聚 类 对 Iris 数据 提取 3 类 时 的 聚 类 中 心 (均值 ) 曲线 
出 现 这 种 类 型 的 图 形 是 可 能 的 ， 因 为 所 有 的 变量 作 图 使 用 相同 的 测量 单位 ( 厘米 )。 如 果 聚 
类 分 析 涉 及 不 同 尺度 的 变量 ， 你 需要 在 绘图 前 标准 化 数据 ， 并 标记 y 轴 为 标准 化 得 分 。 详 情 参 见 
16.1 节 。 
在 可 以 展示 结构 数据 和 分 析 结 果 之 后 ， 让 我 们 来 看 看 流量 控制 。 





























20.1.2 ”控制 结构 


当 R 解 释 器 运行 代码 时 ， 它 按 顺 序 逐 行 读 取 。 如 果 一 行 不 是 一 个 完整 的 语句 ， 它 会 读 取 附加 
行 直 到 可 以 构造 一 个 完全 的 语句 。 例 如 ， 如 果 你 想 计算 3+2+5 的 和 ， 可 以 运行 代码 : 


>3+2+5 
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也 可 以 运行 下 列 代码 : 


>3+2+ 
5 
[LL] .10 


第 一 行 末尾 的 + 号 表示 语句 不 是 完整 的 。 但 是 





> 
[ 
> 
[ 


显然 不 能 运行 ， 因 为 3+2 被 视 为 一 个 完整 的 语句 。 

有 时 你 不 需要 按 顺 序 处 理 代 码 。 你 想 有 条 件 的 或 是 重复 地 执行 一 个 或 多 个 语句 很 多 次 。 这 一 
部 分 描述 了 三 个 控制 流 函 数 ， 这 几 个 函数 在 书写 函数 中 是 十 分 有 用 的 : for() 、if() 和 
ifelse()。 

1. foz 循 环 

for () 函数 允许 你 重复 执行 语句 。 语 法 是 : 


for(var in seG){ 
statements 




















} 
其 中 var 是 一 个 变量 名 ，seg 是 计算 向 量 的 表达 式 。 如 果 仅 有 一 个 语句 ,那么 花 括号 是 可 省 略 的 : 


SFO Th LD) BELIt (Lb) 


























es oh aoed 的 中 如 聊 ) 


4 5 
4 














值得 注意 的 是 ，vaz 直 到 函数 退出 才 退 出 。 退 出 时 ，i 为 1。 
2. if() 和 else 
if () 函数 允许 你 有 条 件 地 执行 语句 。if () 结 构 的 语法 是 : 


if (condition)t{ 
statements 

} else { 
Statements 





} 
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运行 的 条 件 是 一 元 逻辑 向 量 ( TRUE 或 FALSE ) 并 且 不 能 有 缺失 ( NA )。else 部 分 是 可 选 的。 如 果 
仅 有 一 个 语句 ， 花 括号 也 是 可 以 省 略 的 。 
下 面 的 代码 片段 是 一 个 例子 : 


if(interactive())t{ 
plot (x, y) 

} else { 
png ("myplot .png") 
plot (x, y) 
dev.off() 





























} 
如 果 代 码 交 互 运行 ，interactive() 国 数 返 回 TRUE， 同 时 输出 一 个 曲线 图 。 和 否则 ， 曲 线 图 被 存 
在 磁盘 里 。 你 可 以 使 用 第 21 章 中 的 if () 函数 。 

3. ifelse() 

ifelse() 是 水 数 i£f() 的 量化 版 本 。 矢 量化 允许 一 个 图 数 来 处 理 没 有 明确 循环 的 对 象 。 
ifelse() 的 格式 是 : 

ifelse(test, yes, no) 
其 中 test 是 已 强制 为 逻辑 模式 的 对 象 ，yes 返 回 test 元 素 为 真 时 的 值 ，no 返 回 test 元 素 为 假 时 
的 值 。 

比如 你 有 一 个 p 值 向 量 ， 是 从 包含 六 个 统计 检验 的 统计 分 析 中 提取 出 来 的 ， 并 且 你 想 要 标记 
p<0.05 水 平 下 的 显著 性 检验 。 可 以 使 用 下 面 的 代码 : 


> pvalues <- c(.0867, .0018, .0054, .1572, .0183, .5386) 
> results <- ifelse(pvalues <.05, "Significant", "Not Significant") 
> results 



































[1] "Not Significant" "Significant" "ognifreant" 

[4] "Not Significant" "Significant" "Not Significant" 
ifelse() 子 数 通过 pvalues 问 量 循环 并 返回 一 个 包括 "Significant" 或 "Not Significant" 
的 字符 串 。 返 回 的 结果 依赖 于 pvalues 返 回 的 值 是 否 大 于 0.05。 

同样 的 结果 可 以 使 用 显 式 循环 完成 : 

pvalues <- c(.0867, .0018, .0054, .1572, .0183, .5386) 

results <- Vector (mode="character", length=length (pvalues)) 

for(i in 1:1ength(pvalues) ){ 

if (pvalues[i] < .05) results[i] <- "Significant" 


else results[i] <- "Not Significant" 


} 
可 以 看 出 ， 向 量化 的 版 本 更 快 且 更 有 效 。 

有 一 些 其 他 的 控制 结构 , 包括 while () 、repeat () 和 switch(), 但 是 这 里 介绍 的 是 最 常用 
的 。 有 了 数据 结构 和 控制 结构 ， 我 们 就 可 以 讨论 创建 函数 了 。 
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20.1.3 ”创建 函数 








在 R 中 处 处 是 函数 。 算数 运算 符 +、-、/ 和 * 实 际 上 也 是 函数 。 例如 ,2 + 2 等 价 于 "+" (2,， 2)。 
本 节 将 主要 描述 函数 语法 。 语 句 环 境 将 在 20-2 节 描述 。 

1. 函数 语法 

函数 的 语法 格式 是 : 


functionname <- function(parameters)t{ 

















statements 
return(value) 


} 
如 果 函 数 中 有 多 个 参数 ， 那 么 参数 之 间 用 逗号 隔 开 。 
参数 可 以 通过 关键 字 和 /或 位 置 来 传递 。 另 外 ， 参 数 可 以 有 默认 值 。 请 看 下 面 的 函数 : 


f <- function(x, y, 2=1){ 
result <- x + (2*y) + (3*2z) 
return(result) 


























> £f(2,3,4) 

[1] 20 

(2 3:) 

革 导 沪 生 

» 

[ 汪 下 < 

> 于 (= 2 
[让 19. 








在 第 一 个 例子 中 ,参数 是 通过 位 置 (x=2, y=3，z=4 ) 传递 的 。 在 第 二 个 例子 中 , 参数 也 是 通过 
位 置 传递 的 ,并 且 z 黑 认为 1。 在 第 三 个 例子 中 , 参数 是 通过 关键 字 传 递 的 ，z 也 默认 为 1。 在 最 后 
一 个 例子 中 , y 和 z 是 通过 关键 字 传 递 的 ， 并且 x 被 假定 为 未 明确 指定 的 ( 这 里 x=3 ) 第 一 个 参数 。 

参数 是 可 选 的 ， 但 即使 没有 值 被 传递 也 必须 使 用 圆 括号 。return() 函数 返回 函数 产生 的 对 
象 。 它 也 是 可 选 的 ; 如 果 缺 失 ， 函 数 中 最 后 一 条 语句 的 结果 也 会 被 返回 。 

你 可 以 使 用 args () 函数 来 观测 参数 的 名 字 和 默认 值 : 

> args (f) 


Unetioi (RY 0) 
NULL 

























































































args() 被 设计 用 于 交互 式 观测 。 如 果 你 需要 以 编程 方式 获取 参数 名 称 和 默认 值 ， 可 以 使 用 
formals () 函数 。 它 返回 含有 必要 信息 的 列表 。 
参数 是 按 值 传递 的 ， 而 不 是 按 地 址 传递 。 请 看 下 面 这 个 函数 语句 : 


result <- lm(height ~ weight, data=women) 


women 数 据 集 不 是 直接 得 到 的 。 需要 形成 一 个 副本 然后 传递 给 函数 。 如 果 women 数 据 集 很 大 的 话 ， 
内 存 (RAM ) 可 能 被 迅速 用 完 。 这 可 能 成 为 处 理 大 数据 问题 时 的 难题 能 需要 使 用 特殊 的 技术 ( 见 
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附录 G )。 
2. 对 象 范 围 
R 中 对 象 的 范围 ( 名 称 如 何 产生 内 容 ) 是 一 个 复杂 的 话题 。 在 典型 情况 下 ， 有 如 下 几 点 。 
口 在 函数 之 外 创建 的 对 象 是 全 局 的 〈 也 适用 于 函数 内 部 )。 在 函数 之 内 创建 的 对 象 是 局 部 的 
(仅仅 适用 于 函数 内 部 )。 
口 局 部 对 象 在 函数 执行 后 被 丢弃 。 只 有 那些 通过 return () 函数 ( 或 使 用 算 子 <<- 分 配 ) 传 
回 的 对 象 在 函数 执行 之 后 可 以 继续 使 用 。 
口 全 局 对 象 在 函数 之 内 可 被 访问 ( 可 读 ) 但 是 不 会 改变 ( 除非 使 用 <<- 算 子 )。 
口 对 象 可 以 通过 参数 传递 到 函数 中 ， 但 是 不 会 被 函数 改变 。 传 递 的 是 对 象 的 副本 而 不 是 变 
量 本 身 。 
这 里 有 一 个 简单 的 例子 : 





















































> 下 <- function(w)t{ 
2 
基 
return (x) 


卢 卢 

ba 
MD 卢 
MD 


> 
N 
[9] 





一 V 一 V 一 V 一 V 


ES 
心 











在 这 个 例子 中 ，x 的 一 个 副本 被 传递 到 函数 f() 中 ， 但 是 初始 的 x 不 变 。y 的 值 通过 环境 得 到 。 尽 20 
管 z 存 在 于 环境 中 ， 但 是 在 函数 中 设置 的 值 被 使 用 并 不 改变 在 环境 中 的 值 。 
为 了 更 好 地 理解 范围 的 规则 ， 我 们 需要 讨论 环境 。 








20.2 “环境 


在 R 中 ， 环 境 包括 框架 和 外 壳 。 框 架 是 符号 - 值 (对 象 名 称 及 其 内 容 ) 的 集合 ， 外 党 是 指向 
封闭 环境 的 一 个 指针 。 封 闭环 境 也 称 为 父 环境 。R 人 允许 人 们 在 语言 内 部 操作 环境 ， 以 便 达 到 对 范 
围 的 细微 控制 以 及 函数 和 数据 的 分 离 。 

在 互动 部 分 ， 当 你 第 一 次 看 到 R 的 提示 时 ， 你 处 于 全 局 环境 。 你 可 以 通过 new.env () 函数 创 
建 一 个 新 的 环境 并 通过 assign () 函数 在 环境 中 创建 任务 。 对 象 的 值 可 以 通过 get () 函数 从 环境 
中 得 到 。 这 里 有 一 个 例子 : 


Se 
> myenv <- new.env() 
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> assign("x", "Homer", env=myenyv) 
> ls() 

[1] "myenv" "x" 

> ls(myenv) 

0 


x 
J 
get ("x", env=myenv) 
] "Homer" 


在 全 局 环境 中 存在 一 个 称 为 x 的 对 象 ， 其 值 为 5。 一 个 称 为 x 的 对 象 还 存在 于 myenv 的 环境 中 ， 其 
值 为 "Homer"o 


男 外 使 用 assign() 和 get () 函数 时 可 以 使 用 $ 符 号 。 例 如 ， 


> myenv <- new.env() 
> myenv$sx <- "Homer" 
> myenvsx 

[1] "Homer" 


产生 同样 的 结 
parent .env () 限 数 展示 了 父 环境 这 个 例子 ，myenv 的 父 环境 就 是 全 局 环境 


> parent .env (myenv) 
<environment: R_GlobalEnv> 


全 局 环境 的 父 环境 是 空 环境 。 使 用 help (environment ) 查看 详情 。 
因为 函数 是 对 象 ， 所 以 它们 也 有 环境 。 这 在 探讨 函数 闭 包 (function closure， 以 创建 时 状态 
被 打包 的 函数 ) 时 非常 重要 。 请 看 由 男 一 个 函数 创建 的 也 数 : 


trim <- function(p)t{ 
trimit <- function (x){ 
n <- length (x) 
lo <- floor(n*p) + 1 
hi <-n+1l1- 1o 
x <- sort.int(x, partial = unigque(c(lo, hi)))[lo:hil] 
} 


trimit 
































} 
trim(p) 函数 返回 一 个 函数 ， 即 从 矢量 中 修剪 掉 高 低 值 的 p%: 


> 

> trimilOpct <- trim(.1) 
> y <- trimlOpct (x) 

> 
EE 

> trim20pct <- trim(.2) 
> YYy <- trim20pct (x) 

> Y 

Th BM Sb: 7 8 


这 样 做 是 因为 p 值 在 trimit () 函数 的 环境 中 并 被 保存 在 函数 中 : 
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> ls(environment (上 zim10pct) ) 

[1] Ce "trimit™" 

> get("p", env=environment (trimlOpct)) 
EL Ol 








我 们 从 这 里 得 出 的 教训 是 ， 在 R 中 函数 一 旦 被 创建 里 面 的 对 象 就 存在 在 环境 中 。 这 一 事实 可 以 解 





释 下 面 的 做 法 : 


> makeFunction <- function(k)t{ 
f <- function(X) { 
print (x + K) 
} 
} 


9 <- makeFunction(10) 
g (4) 

] “了 于 六 

k <- 2 

g (5) 

Ds 








无 论 在 全 局 环境 中 k 的 值 是 什么 ，g () 函数 使 用 k=3 ， 因 为 当 此 函数 被 创建 时 k 被 赋值 为 3 。 同 样 
地 ， 你 可 以 从 下 面 看 到 这 一 点 : 


> 1s(environment (9) ) 


[1] 所 "en 
> environment (g) $k 
[1] 10 





一 般 情况 下 ， 对 象 的 值 是 从 本 地 环境 中 获得 的 。 如 果 未 在 局 部 环境 中 找到 对 象 ，R 会 在 父 环境 中 
搜索 ， 然 后 是 父 环境 的 父 环境 ， 直 到 对 象 被 发 现 。 如 果 R 搜 索 到 空 环境 仍 未 搜索 到 对 象 ， 它 会 抛 
出 一 个 错误 。 我 们 把 它 称 为 词法 域 (lexical scoping )。 

如 果 想 了 解 更 多 环境 和 词法 域 的 内 容 ， 可 以 参考 Christopher Bare 的 “Environments in R” 
( http:/mng.bz/uPYM ) 和 Darren Wilkinson 的 “Lexical Scope and Function Closures in R” 
( http://mng.bz/R286 )。 


20.3 面向 对 象 的 编程 


R 是 一 个 基于 使 用 泛 型 函数 的 面向 对 象 的 编程 语言 。 每 个 对 象 有 一 个 类 属性 ， 这 个 类 属性 决 
定 当 对 象 的 副本 传递 到 类 似 于 print () 、plot () 和 summary () 这些 泛 型 函数 时 运行 什么 代码 。 

R 有 两 个 分 离 的 面向 对 象 编 程 的 模型 。S3 模 型 相对 更 老 、 更 简单 、 结 构 更 少 。S4 模 型 更 新 且 
更 复杂 。S3 方 法 容易 使 用 并 且 在 R 中 有 最 多 的 应 用 。 我 们 将 主要 集中 讨论 S3 模 型 。 本 节 最 后 将 简 
单 探讨 S3 模 型 的 局 限 性 和 S4 模 型 如 何 试图 解决 这 些 问题 。 






































20.3.1 泛 型 函数 
R 使 用 对 象 的 类 来 确定 当 一 个 泛 型 函数 被 调用 时 采取 什么 样 的 行动 。 考 虑 下 面 的 代码 ; 
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summary (women) 
fit <- lm(weight ~ height, data=women) 
summary (fit) 


在 第 一 个 例子 中 ，summary () 函数 对 women 数 据 框 中 的 每 个 变量 都 进行 了 描述 性 分 析 。 在 第 二 个 
例子 中 ，summary () 函数 对 该 数据 框 的 线性 回归 模型 进行 了 描述 。 这 是 如 何 发 生 的 呢 ? 
让 我 们 来 看 看 summary () 函数 的 代码 : 


> summary 
function (object, ...) UseMethod("summary") 


现在 让 我 们 看 看 women 数 据 框 和 fit 对 象 的 类 : 


> class (women) 
[1] "data.frame" 
> class (fit) 

















Lb 
如 果 郴 数 summary. data.frame (women ) ) 存在 ，Summary (women) 函数 执行 summary .data. 
frame (women) ， 和 否则 执行 summary .default (women)。 同 样 ， 如 果 summary.lm(fit) 存 在 ， 


summary (fiL) 困 数 执行 summary .lm(fit) ,否则 执行 summary .default (fit)。 UseMethod() 
消 数 将 对 象 分 派 给 一 个 泛 型 函数 ， 前 提 是 该 泛 型 函数 有 扩展 与 对 象 的 类 匹配 。 
为 了 列 出 可 获得 的 S3 泛 型 函数 ， 可 以 使 用 methods () 函数 : 


> methods (summary) 








[1] summary .aoV summary .aovlist 
[3] summary .aspell* summary .connection 
[5] summary .data.frame summary .Date 
[7] summary .default summary .ecdf* 
. .Output omitted... 
[31] summary .table summary .tukeysmooth* 


summary .wmc* 


Non-visible functions are asterisked 

返回 的 函数 个 数 取 决 于 机 器 上 安装 的 包 的 个 数 。 在 我 的 电脑 上 , 独立 的 summary () 函数 已 经 定义 
了 33 类 ! 

你 可 以 使 用 前 面 例子 中 用 到 的 函数 ,通过 去 掉 括 号 ( summary .data.frame、summary .1m 
和 summary .default ) 来 查看 这 些 函 数 的 代码 。 不 可 见 的 函数 〈 在 方法 列表 中 加 星 号 的 函数 ) 
不 能 通过 这 种 方式 查看 代码 。 在 这 些 情况 下 ， 可 以 使 用 getanywhere () 函数 来 查看 代码 。 要 看 
到 summary .ecdf () 的 代码 ， 输入 getAnywhere (summary .ecdf) 就 可 以 了 。 查看 现 有 的 代码 
是 你 为 自己 的 函数 获取 灵感 的 一 种 优秀 方式 。 

你 或 许 已 经 看 到 了 诸如 numeric、 matrix、 data.frame、 array、 lm、 glm 和 table 的 类 ， 
但 是 对 象 的 类 可 以 是 任意 的 字符 串 。 男 外 , 泛 型 函数 不 一 定 是 print ()、plot () 和 summary ()。 
任意 的 函数 都 可 以 是 泛 型 的 。 下 面 的 代码 清单 定义 了 名 为 mymethod () 的 泛 型 函数 。 
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代码 清单 20-2 一 个 任意 的 泛 型 兄 数 的 例子 

mymethod <- function(x, ...) UseMethod ("mymethod") 

mymethod.a <- function (x) print ("Using A") 定义 泛 型 函数 
mymethod.b <- function(x) print ("Using B") 

mymethod.default <- function(x) print ("Using Default") 


V 


WN 


ee 
> 
09 

> class (x) <- "a" | 居 给 对 象 分 配 类 

> CLasS(y) <= I” 

> mymethod (x) 

1] "Using A" . 

> mymethod(y) 把 泛 型 函数 应 
1] "Using B" 用 到 对 象 中 


> mymethod(z) 
1] "Using Default" 


oy 





> CaS) a BY) 把 泛 型 函数 应 用 到 包 

> mymethod(z) 含 两 个 类 的 对 象 中 

1] "Using A" 

> class(z) <- clre", a", "b") 和 泛 型 函数 没有 默 
> mymethod (z) 认为 "c" 的 类 

[1] "Using A" 





在 这 个 例子 中 ,mymethod() 泛 型 函数 被 定义 为 类 a 和 类 b 的 对 象 ,default () 函数 也 被 定义 了 @。 
对 象 x<、y 和 z 随 后 定义 ， 而 且 一 个 类 被 分 配 到 对 象 x 和 y 上 人 @。 接 着 ，mymethod() 函数 被 应 用 到 
每 个 对 象 中 ， 相 应 的 函数 得 到 调用 合 。 默 认 的 方法 用 于 对 象 z， 因 为 该 对 象 有 integer 类 而 且 没 
有 已 经 被 定义 的 mymethodq.integer() 函数 。 

一 个 对 象 可 以 被 分 配 到 一 个 以 上 的 类 (例如 ，buildqing、resiaqential 和 commercial )。 
在 这 种 情况 下 R 如 何 决 定 使 用 哪个 泛 型 子 数 呢 ? 当 对 象 z 被 分 配 到 两 类 时 @， 第 一 类 用 来 决定 哪 
个 泛 型 函数 被 调用 。 在 最 后 一 个 例子 中 @， 没有 mymethod.c() 函数 ， 因 此 下 一 个 类 (a ) 被 使 
用 。R 从 左 到 右 搜索 类 的 列表 ， 寻 找 第 一 个 可 用 的 泛 型 函数 。 








20.3.2”S3 模型 的 限制 


3 对 象 模型 的 主要 限制 是 ,任意 的 类 能 被 分 配 到 任意 的 对 象 上 。 没 有 完整 性 检验 。 在 这 个 例 
子 中 ， 


> class (women) <- "lm" 
> summary (women) 
Error in if (p == 0) { : argument is of length zero 


women 数 据 框 被 分 配 到 类 lm， 这 是 无 意义 的 并 会 导致 错误 。 
S4 面 向 对 象 编程 的 模型 更 加 正式 、 严 格 ， 旨 在 克服 由 S3 方 法 的 结构 化 程度 较 低 引起 的 困难 。 
在 S4 方 法 中 ,类 被 定义 为 具有 包含 特定 类 型 信息 (也 就 是 输入 的 变量 ) 的 槽 的 抽象 对 象 。 对 象 和 
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方法 构造 在 强制 执行 的 规则 内 被 正式 定义 。 不 过 使 用 S4 模 型 编程 更 加 复杂 且 互 动 更 少 。 如 果 想 学 
习 更 多 关于 S4 面 向 对 象 编程 模型 的 信息 ， 可 以 参考 Chistophe Genolini 的 “A (Not So) Short 
Introduction to S4” (http:/mng.bz/1VkD )。 


20.4 ”编写 有 效 的 代码 


在 程序 员 中 间 流 传 着 一 句 话 :“ 优 秀 的 程序 员 是 花 一 个 小 时 来 调试 代码 而 使 得 它 的 运算 速度 
提高 一 秒 的 人 。”R 是 一 种 鲜 活 的 语言 , 大 多 数 用 户 不 用 担心 写 不 出 高 效 的 代码 。 加快 代码 运行 速 
度 最 简单 的 方法 就 是 加 强 你 的 硬件 (RAM 、 处 理 器 速度 等 )。 作 为 一 般 规则 ， 让 代码 易于 理解 、 
易于 维护 比 优化 它 的 速度 更 重要 。 但 是 当 你 使 用 大 型 数据 集 或 处 理 高 度 重复 的 任务 时 , 速度 就 成 
为 一 个 问题 了 。 

几 种 编码 技术 可 以 使 你 的 程序 更 高 效 。 

口 程序 只 读 取 需 要 的 数据 。 

口 尽 可 能 使 用 矢量 化 替代 循环 。 

口 创建 大 小 正确 的 对 象 ， 而 不 是 反复 调整 。 
口 使 用 并 行 来 处 理 重复 、 独 立 的 任务 。 

让 我 们 依次 看 看 每 个 技术 。 

1. 有 效 的 数据 输入 

使 用 read .table() 函数 从 含有 分 隔 符 的 文本 文件 中 读 取 数 据 的 时 候 , 你 可 以 通过 指定 所 需 
的 变量 和 它们 的 类 型 实现 显著 的 速度 提升 。 这 可 以 通过 包含 colclasses 人 参数 的 函数 来 实现 。 例 
如 ,假设 你 想 在 用 逗号 分 隔 的 、 每 行 10 个 变量 的 文件 中 获得 3 个 数值 变量 和 2 个 字符 变量 。 数 值 变 
量 的 位 置 是 ! 、2 和 5， 字 符 变量 的 位 置 是 3 和 7。 在 这 种 情况 下 ， 代 码 : 


my.data.frame <- read.table (mytextfile, header=TRUE, sep=',', 













































































colClasses=c("numeric", "numeric", "character", 
NULL, "numeric", NULL, "character", NULL, 
NULL, NULL)) 


将 比 下 面 的 代码 运行 得 更 快 : 

my.data.frame <- read.table(mytextfile, header=TRUE, sep=',') 
与 NULL colClasses 值 相关 的 变量 会 被 跳 过 。 如 果 行 和 列 的 值 在 文本 文件 中 增加 ， 速 度 提 升 会 
变 得 更 加 显著 。 

2. 矢量 化 

在 有 可 能 的 情况 下 尽量 使 用 矢量 化 ， 而 不 是 循环 。 这 里 的 矢量 化 意味 着 使 用 R 中 的 函数 ， 这 
些 函 数 旨 在 以 高 度 优化 的 方法 处 理 向 量 。 初 始 安装 时 自 带 的 函数 包括 ifelse() 、colsums ()、 
rowSums () 和 rowMeans ()。matrixstats 包 提供 了 很 多 进行 其 他 计算 的 优化 函数 ， 包 括 计数 、 
求 和 、 乘 积 、 集 中 趋势 和 分 散 性 、 分 位 数 、 等 级 和 分 级 的 措施 。plyr 、dplyr 、reshape2 和 
data.table 等 包 也 提供 了 高 度 优化 的 函数 。 
























































20.4 编写 有 效 的 代码 443 








考虑 一 个 1 000 000 行 10 列 的 和 矩阵。 让 我 们 使 用 循环 并 且 再 次 使 用 colsums () 函数 来 计算 列 的 
和 。 首 先 ， 创 建 矩 阵 ; 


set.seed (1234) 
mymatrix <- matrix(rnorm(10000000), ncol=10) 


然后 ， 创 建 一 个 accum ( ) 函数 来 使 用 for 循 环 获得 列 的 和 : 


accum <- function (x){ 
sums <- numeric(ncol (x)) 
for (1 Tn Lemeol (xy) 
for(j in 1l:nrow(x))t{ 
sums[i] <- sums[i] + x[j,i] 





} 
} 


system.time() 国 数 可 以 用 于 确定 CPU 的 数量 和 运行 该 函数 所 需 的 真实 时 间 : 


> System.time (accum (mymatrix)) 
user System elapsed 
人 Ot:04 DD 


使 用 colsums () 函数 计算 和 的 时 间 : 


> system.time (colSums (mymatrix)) 
user system elapsed 
0.02 0.00 0.02 














在 我 的 计算 机 上 , 矢量 化 函数 运行 速度 是 循环 函数 的 1200 倍 。 不 同 的 计算 机 可 能 会 有 所 不 同 。 

3. 大 小 正确 的 对 象 

与 从 一 个 较 小 的 对 象 开始 , 然后 通过 附加 值 使 其 增 大 相 比 , 初始 化 对 象 到 所 需 的 最 终 大 小 再 
真 写 值 更 加 高 效 。 上 比方 说 ， 向 量 x 含 有 100 000 个 数值 ， 你 想 获得 向 量 y， 数 值 是 这 些 值 的 平方 : 20 

> set.seed(1234) 


>k <- 100000 
> X <- rnorm(k) 


一 个 方法 如 下 : 


>y <- 0 

> system.time(for (i in 1:length(x)) y[il <- x[i]“^2) 
user system elapsed 

10.03 0.00 10.03 




















= 
































y 开 始 是 一 个 单元 素 矢量 ， 逐 渐 增 长 到 含有 100 000 个 元 素 的 向 量 ， 其 中 的 值 是 x 的 平方 。 在 我 的 
计算 机 上 ， 这 个 过 程 需要 大 约 10 秒 。 

如 果 先 初始 化 y 为 含有 100 000 个 元 素 的 向 量 : 

> Y <- numeric(length=k) 

> System.time(for (i in 1:k) y[i] <- x[i]^2) 


user system elapsed 
O01.23 0.00 0.24 
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同样 的 计算 耗费 的 时 间 不 足 一 秒 钟 。 这 样 就 可 以 避免 R 不 断 调整 对 象 而 耗费 相当 长 的 时 间 。 





如 果 你 使 用 矢量 化 : 


> Y <- numeric(length=k) 

> System.time(y <- X^2) 

system elapsed 
0 0 


user 
0 

















这 个 过 程 会 更 快 。 需 要 注意 的 是 ， 求 需 、 加 法 、 乘 法 等 操作 也 是 向 量化 函数 。 





4. 并 行 化 





并 行 化 包括 分 配 一 个 任务 ,在 两 个 或 多 个 核 同时 
在 一 个 集群 中 不 同 的 机 如 上 。 需要 重复 独立 执行 数字 密 


人 Ab 
能 是 





能 是 在 同一 台 计 算 机 上 , 也 可 





运行 组 块 ,并 把 结果 合 在 一 起 。 这 些 内 核 可 
型 函 














数 的 任务 很 可 能 从 并 行 化 中 受益 。 这 包括 许多 蒙特 卡 罗 方 法 (Monte Carlo method )， 如 自助 法 


(bootstrapping )。 


R 中 的 许多 包 支 持 并 行 化 ， 参 见 Dirk Eddelbuettel 的 “CRAN Task View: High-Performance and 


Parallel Computing with R” ( http://mng.bz/65sT 
包 在 单机 上 并 行 化 运行 。foreach 包 支持 fo 
行 执行 循环 。doParallel 包 为 foreach 包 提 











你 


)。 在 本 节 中 ,你 可 以 使 用 foreach 和 doParallel 
reach 循 环 构建 ( 遍历 集合 中 的 元 素 ) 同时 便于 并 
共 了 一 个 平行 的 后 端 


AAA 





























在 主 成 分 和 因子 分 析 中 ， 关 键 的 一 步 就 是 从 数据 中 提取 合适 的 成 分 或 因子 个 数 ( 参见 14.2.1 
节 )。 一 种 方法 是 重复 地 执行 相关 和 矩阵 的 特征 值 分 析 ， 该 矩阵 来 自 具有 与 初始 数据 相同 的 行 和 列 




















的 随机 数据 。 具 体 的 分 析 展 示 在 代码 清单 20-3 


较 。 为 了 执行 代码 ， 你 需要 安装 foreach 和 gopParallel 包 并 是 知道 你 的 个 人 





中 。 在 清单 中 ,我 们 将 并 行 和 非 并 行 版 本 进行 了 比 
电脑 有 几 个 内 核 。 

















代码 清单 20-3 ” foreach 和 aqoParallel 包 的 并 行 化 


> library (foreach) 
library (doParallel) 


registerDoParallel (cores=4) 


2 
b> 


> eig <- function(n, p){ 


X <- matrix(rnorm(100000), 


r= COr(X} 
eigen(r) Svalues 
} 
< T000000 
B=.100 
ks < ,500 


VvyV 


system.timel 
x <- foreach (i=1:k, 
) 


user 
10.59:7 


system elapsed 
(OR 11.11 


system.timel 
< foreach(i=lLek; 
) 
user system elapsed 
0522 0.05 4.24 


.combine=rbind) 


加 载 包 并 登记 内 
核 数 量 


ncol=100) 


.combine=rbind) %do% eig(n, p) 用 正常 执行 


Sdopar® eig(n, p) 


1 并 行 执行 
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首先 加 载 包 并 登记 内 核 数 量 (我 的 计算 机 是 4 核 ) @。 其 次 定义 特征 分 析 函 数 @。 在 这 里 分 
析 100 000x100 的 随机 数据 和 矩阵。 使 用 foreach 和 %do% 执 行 eig () 函数 500 次 人 @。%qdos 操 作 符 按 
顺序 运行 函数 ， .combine=rbing 操 作 符 追加 对 象 x 作 为 行 。 最 后 ， 函数 使 用 sqopar% 操 作 符 进 
行 并 行 运算 @。 在 这 种 情况 下 ， 并 行 执 行 的 速度 大 约 是 顺序 执行 速度 的 2.5 信 。 

在 这 个 例子 中 ，eig () 函数 的 每 一 次 迭代 都 是 数字 密集 型 的 ， 不 需要 访问 其 他 迄 代 ,而且 没 
有 涉及 磁盘 1/0。 这 种 情况 从 并 行 化 程序 中 受益 最 大 。 并 行 化 的 缺点 是 它 可 以 降低 代码 的 可 移植 性 ， 
也 不 能 保证 其 他 人 都 和 你 有 一 样 的 硬件 配置 。 

本 节 描 述 的 四 种 高 效 方法 能 帮助 我 们 解决 每 天 的 编码 问题 ; 但 是 在 处 理 真 正 的 大 数据 集 ( 例 
如 ,在 TB 级 范围 内 的 数据 集 ) 时 ,它们 很 难 帮 上 忙 。 当 你 处 理 大 数据 集 时 ， 附 录 G 中 描述 的 方法 
可 供 使 用 。 




































































查找 瓶颈 
“为 什么 我 的 代码 运行 这 么 久 ? ”R 提 供 了 确定 最 耗 时 函数 分 析 方 案 的 工具 。 把 代码 放 在 
Rprof () 和 RProf (NULL) 之 间 进 行 汇总 。 然 后 执行 summaryRprof () 函数 获得 执行 每 个 函数 
的 时 间 汇 总 。 上 有 具 体 细 节 可 参见 ?Rprof 和 ?summaryRprof。 


当 某 个 程序 无 法 执行 或 给 出 无 意义 的 结果 时 , 提高 效率 是 没有 用 的 。 因 此 下 面 我 们 将 介绍 揭 
示 编 程 错 误 的 问题 。 

















20.5 ”调试 


调试 是 寻找 和 减少 一 个 程序 中 错误 或 缺陷 数目 的 过 程 。 程 序 在 第 一 次 运行 时 不 出 错 是 美好 
的 , 独 角 兽 生活 在 我 家 附近 也 是 美好 的 。 除 了 最 简单 的 程序 ， 所 有 的 程序 中 都 会 出 现 错误 。 确定 
这 些 错误 的 原因 并 进行 修复 是 一 个 耗 时 的 过 程 。 在 本 中 , 我 们 将 看 到 常见 的 错误 来 源 和 帮助 我 
们 发 现 错误 的 工具 。 




















20.5.1 常见 的 错误 来 源 


下 面 是 几 种 在 R 中 函数 失效 的 常见 原因 。 

口 对 象 名 称 拼 写 错误 ， 或 是 对 象 不 存在 。 

口 函数 调用 参数 时 设 定 错误 。 

口 对 象 的 内 容 不 是 用 户 期 望 的 结果 。 尤 其 是 当 把 NULL 或 者 含有 NaN 或 NA 值 的 对 象 传递 给 不 
能 处 理 它们 的 函数 时 ， 错 误 经 常 发 生 。 
第 三 个 原因 比 你 想象 中 更 常见 ， 原 因 在 于 R 处 理 错 误 和 警告 的 方法 过 于 简洁 。 
请 看 下 面 的 例子 。 对 于 在 初始 安装 时 自 带 的 mccars 数 据 集 来 说 ， 你 想 提供 一 个 变量 am ( 传 

输 类 型 ) 并 带 有 详细 的 标题 和 标签 。 接 下 来 ,你 想 比 较 使 用 自动 变速 顺和 手动 变速 器 汽车 的 汽油 

里 程 : 



















































































446 第 20 章 高 级 编程 





> mtcarssTransmission <- factor(mtcarss$a, 
levels=c(1,2), 


labels=c("Automatic", "Manual")) 
> aov(mpg ~ Transmission, data=mtcars) 
Error in ‘contrasts<-. (‘*tmp*., value = contr.funs[l1 + isOF[nn]]) 


contrasts can be applied only to factors with 2 or more levels 
哎呀 ! ( 乾 软 ,但 这 确实 是 我 说 的 话 。) 发 生 了 什么 ? 
你 没有 看 到 “Object xxx not found” 的 错误 ， 因 此 可 能 并 没有 拼 错 函数 、 数 据 框 或 是 变量 名 。 
让 我 们 来 看 看 传递 给 aov () 函数 的 数据 : 


> head (mtcars[c("mpg", "Transmission" ) ]) 
mpg Transmission 
Mazda RX4 2 0 Automatic 
Mazda RX4 Wag 21.0 Automatic 
Datsun 710 22.8 Automatic 
Hornet 4 Drive 21..4 <NA> 
Hornet Sportabout 18.7 <NA> 
Valiant L835: <NA> 


> table(mtcars$Transmission) 


Automatic Manual 
43 0 


没有 手动 变速 铝 汽 车 的 数据 。 返 回来 看 原始 数据 集 ， 变 量 am 被 编码 为 0= 上 自动 ，1= 手 动 〈 而 不 是 
1= 自 动 ，2= 自 动 )。 

factor () 函数 很 愉快 地 按照 你 的 要 求 去 做 了 ， 没 有 提醒 或 错误 。 它 把 所 有 的 手动 变速 器 汽 
车 转化 为 自动 变速 器 汽车 ， 而 把 自动 变速 锅 汽 车 设 为 缺失 。 最 后 只 有 一 组 可 用 ,方差 分 析 因 此 失 
败 。 确 认 每 个 输入 函数 包含 预期 的 数据 可 以 为 你 节省 数 小 时 令 人 诅 开 的 检查 工作 。 






































20.5.2 ”调试 工具 

尽管 检查 对 象 名 、 函 数 参 数 和 函数 输入 可 以 找到 很 多 错误 来 源 , 但 有 时 你 还 必须 深入 研究 区 
数 内 部 运作 机 制 和 调用 函数 的 函数 。 在 这 些 情况 下 ，R 自 带 的 内 部 调试 絮 将 会 发 生 作用 。 表 20-1 
中 是 一 些 有 用 的 调试 函数 。 





表 20-1 内 部 调试 函数 





















































函 数 作 用 

debug() 标记 函数 进行 调试 

undebug () 取消 标记 函数 进行 调试 

browser () 允许 单 步 通过 函数 的 执行 。 调 试 时 ,输入 n 或 按 <RET> ( 回 车 键 ) 执行 当前 语句 并 移动 到 下 一 行 。 输 
入 c 继 续 执行 到 函数 的 末尾 ， 没 有 单 步 执 行 。 输 入 where 显 示 调 用 的 堆栈 ， 输 入 0 停止 执行 并 立即 跳 
到 顶层 。 其 他 的 R 命 令 诸如 1s () 、print () 和 赋值 语句 也 可 以 在 调试 器 中 提交 

trace() 修改 函数 以 允许 暂时 插入 调试 代码 

untrace() 取消 追踪 并 删除 临时 代码 

traceback() ”打印 导致 了 最 后 未 捕获 错误 的 函数 调用 序列 
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qebug () 函数 标记 一 个 函数 进行 调试 。 当 执行 函数 时 , browset () 函数 被 调用 并 允许 你 单 步 
每 次 调试 一 行 函数 。 2 0 信 本 Wracet) 








函数 临时 在 函数 中 插入 调试 代码 。 当 调试 由 CRAN 提 供 的 日 不 能 直接 编辑 的 基础 函数 时 ,这 是 相 
当 有 用 的 。 


如 果 一 个 函数 调用 其 他 函数 ， 它 很 难 确 定 错误 发 生 在 哪儿 。 在 这 种 情况 下 ， 出 现 错误 后 立即 
执行 traceback () 函数 将 会 列 出 导致 错误 的 调用 函数 序列 。 最 后 一 个 调用 就 是 产生 错误 的 原因 。 

让 我 们 来 看 一 个 例子 。 maa () 函数 计算 一 个 数值 向 量 的 中 位 数 绝对 偏差 。 你 可 以 使 用 aebug () 
函数 来 探索 该 函数 的 工作 原理 。 调 试 会 话 显示 在 下 面 的 代码 清单 中 。 


代码 清单 20-4 ”一 个 简单 的 调试 会 话 























> args (mad) 

function (x, center = median(x), constant = 1.4826, 人 查看 形式 参数 
na.rm = FALSE, low = FALSE, high = FALSE) 

NULL 

> debug (mad) 

> mad(1:10) 

debugging in: mad (x) es 

debug: { 


if (na.rm) 
x <- x[!is.nal(x)] 
n <- length (x) 
constant * if ((low || high) && n%%2 == 0) { 
if (low && high) 
stop("'low' and 'high' cannot be both TRUE") 
n2 <- ng/gs2 + as.integer (high) 
sort(abs(x - center), partial = n2) [n2] 
} 


else median(abs(x - center)) 




















} We 列 出 对 象 
Browse[2]> 1s() 
[ "Center" "constant" "high" "low" "na.rm" "XxX" 
Browse[2]> center 
[网 可 六 9 
Browse[2]> constant 
[ 1.4826 
Browse[2]> na.rm 
[ FALSE 
Browse[2]> x 
1] ee SE le, 
Browse <1 n | 通过 代码 单 
debug: if (na.rm) x <- X[Iis.na(X)] 6 步 运行 
Browse[2]> n 
debug: n <- length (x) 
Browse[2]> n 
debug: constant * if ((low || high) &é& n%%2 == 0) { 
if (low && high) 


stop("'low' and 'high' cannot be both TRUE") 
n2 <- n%/%$2 + as.integer (high) 
sort(abs(x - center), partial = n2) [n2] 
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} else median(abs(x - center)) 
Browse[2]> print (n) 

[1] 10 

Browse[2]> where 

where 1: mad(x) 


Browse[2]> 5c 

exiting from: mad (x) Oi 
[ld 3 T0685 

> undebug (mad) 


首先 , arg () 函数 用 来 展示 参数 名 称 和 mad ( ) 函数 的 默认 值 @。debug 标 志 使 用 debug (mad) 
进行 设置 @。 现 在， 无论 什么 时 候 maa () 函数 被 调用 ，broswer () 函数 也 被 执行 ， 允 许 一 次 执行 
一 行 函 数 。 

当 mad () 函数 被 调用 时 , 会话 进入 browser () 模 式 。 函 数 的 代码 被 列 出 来 但 是 不 执行 。 除 此 
之 外 ， 提 示 更 改 为 Browse [al]>， 其 中 nm 表示 浏览 层级 ， 数 值 随 每 次 递归 调用 递增 。 

在 browser () 模 式 中 ， 其 他 的 函数 命令 会 被 执行 。 例 如 ，1s () 函数 列 出 了 在 函数 执行 过 程 
中 在 给 定点 存在 的 对 象 全 。 输 入 一 个 对 象 的 名 字 将 展示 它 的 内 容 。 如 果 一 个 对 象 是 用 n、c 或 o 命 
名 的 ， 你 必须 使 用 print (n) 、print (c) 或 print (0) 来 查看 它 的 内 容 。 你 可 以 通过 键入 赋值 语 
句 改变 对 象 的 值 。 

你 可 以 单 步 执行 函数 和 输入 字母 n 或 按 回 车 键 每 次 执行 执行 一 个 语句 人 @。where 语 句 表明 你 
正在 执行 的 函数 调用 在 堆栈 的 何 处 。 用 单个 函数 很 没有 意思 , 但 是 如 果 你 有 函数 可 以 调用 其 他 也 
数 ， 它 可 能 会 很 有 用 。 

输入 c 移 出 单 步 运行 模式 并 执行 当前 函数 剩余 的 部 分 回 。 输 入 o 退 出 函数 模式 并 回 到 R 提 示 。 

当 你 有 循环 并 想 看 看 值 如 何 改变 时 , 使 用 aebug () 函数 是 很 有 用 的 。 你 也 可 以 直接 把 代码 髓 
人 browser () 函数 来 帮助 定位 这 个 问题 。 假 设 你 有 一 个 变量 x, 它 的 值 永远 不 是 负 的 。 添 加 代码 : 

if (xXx < 0) browser() 

让 你 在 出 现 问题 时 探索 函数 当前 的 状态 。 当 函数 被 充分 调试 时 ， 可 以 删 掉 无 用 的 代码 。( 我 最 
初 写 的 是 “彻底 调试 *"， 但 这 几乎 永远 不 会 发 生 ， 因 此 我 把 它 换 成 “充分 调试 ”来 反映 程序 员 
的 现实 。) 


20.5.3 ”支持 调试 的 会 话 选项 


如 果 你 有 调用 函数 的 函数 ， 两 个 会 话 选项 可 以 在 调试 过 程 中 帮 上 忙 。 通 常情 况 下 ， 当 R 过 到 
错误 信息 时 ， 它 会 打印 错误 信息 并 退出 函数 。 设 置 options (error=traceback) 之 后 , 一 旦 错 
误 发 生 就 会 打印 调用 的 栈 ( 函数 调用 导致 出 错 的 序列 )。 这 能 帮助 你 看 出 哪个 函数 产生 了 错误 。 

设置 cptions (error=recover) 也 会 在 出 现 错误 时 打印 调用 的 栈 。 除 此 之 外 ， 它 还 会 提示 
你 选择 列表 中 的 一 个 函数 ， 然 后 在 相应 的 环境 中 调用 browser () 函数 。 输 入 c 会 返回 列表 ,输入 
0 则 退出 到 R 提 示 。 

使 用 recover () 模 式 让 你 探索 从 函数 调用 的 序列 中 选择 的 任何 函数 的 任意 对 象 的 内 容 。 通 过 
有 选择 地 观测 对 象 的 内 容 ， 你 可 以 频繁 地 确定 问题 的 来 源 。 要 返回 至 R 的 默认 状态 ， 可 以 设置 
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options (error=NULL)。 下 面 给 出 一 个 玩具 的 例子 。 
代码 清单 20-5 ”使 用 recover () 函数 进行 样品 调试 会 话 


f <- function(x, y){ 
z <- x+y AL 甸 奸 要 
g (2z) 


9g «tunetion(R)t 
2Z <- round (x) 
(成) 

} 

h <- function (x){ 
set.seed(1234) 
Z <- rnorm(x) 
ELDNC() 


} 

> options (error=recover) 

> E25 3 

ELY = 20 O277™ 二 084 2 346. .O429 


> £f(2, -3) a 0 we 
Error in rnorm(x) : invalid arguments 进入 该 导致 错误 的 值 


Enter a frame number, or 0 to exit 


fi(2, =3) 
#3: g(z) 
#3: h(z) 
#3: rnorm(x) 


大 ODP 


Selection: 4 区 

Called from: rnorm(x) 检查 rnorm() 函数 
Browse[1]> ls() 

[1] "mean" "n" "sa 

Browse[1]> mean 





Browse[1]> print (n) 
[1] -1 
Browse[1]>c 











Enter a frame number, or 0 to exit 
1: f(2, -3) 

2: #3: g(z) 

33 #3 hi(z) 

4: #3: rnorm(x) 


Selection: 3 > 
Called from: h(z) 检查 h (z) 函数 
Browse[1]> ls( 

Ej "i 

Browse[1]> x 

[EE] 二 

Browse[1]> cC 
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Enter a frame number, or 0 to exit 


f(2, -3) 
#3: g(z) 
#3: h(z) 
#3: rnorm(x) 


可 ODP 


Selection: 2 a 

Called from: g(z) 检查 g (z) 函数 
Browse[1]> 1s() 

[1] "x" "Zz" 


Browse[1]> x 


Ej 
Browse[1]> Zz 
[Eh 


Browse[1]> c 


Enter a frame number, or 0 to exit 


f(t 3) 
#3: g(z) 
#3: h(z) 
#3: rnorm(x) 


DDP 


Selection: 1 Se 
Called from: f(2, -3) 检查 E(2，-3) 函数 
Browse[1]> 1s() 
[1 
Browse[l1l]> x 
[1] 2 
Browse[1l]>y 
[Td]; 3 
Browse[l]> 2z 
[1] -1 
Browse[1]> print(f) 
function(x, y)t{ 

:a 

g (2z) 











} 


Browse[1]>c 


Enter a frame number, or 0 to exit 


Pent 23:) 
和 
3: #3: hl(z) 
4: #3: rnorm(x) 


Selection: 0 


> options (error=NULL) 


上 面 的 代码 创建 了 一 系列 函数 。 函数 £() 调用 函数 g () , 函数 g ( ) 调用 函数 h () 。 执 行 E(2，3 ) 


运行 良好 ， 但 是 运行 (2，-3) 时 便 出 现 了 错误 。 因 为 设置 了 options (error=recover)， 交 
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互 式 会 话 被 立即 转移 到 了 recover 模 式 。 函 数 调用 的 栈 被 列 了 出 来 , 你 可 以 在 browser () 模 式 下 
选择 检验 的 函数 。 

输入 4 会 转移 到 rnorm() 函数 中 ,这 里 1s () 函数 列 出 了 对 象 ; 你 可 以 看 到 n= -1, 这 在 rnorm () 
函数 中 是 不 被 允许 的 。 这 明显 是 问题 所 在 ， 但 是 要 查看 n 为 什么 变 成 -1， 你 需要 移动 栈 。 

输入 c 返 回 菜单 ， 输 入 3 则 返回 h (z) 函数 ， 这 里 x=-1。 输 入 c 和 2 转移 到 g (z) 函数 中 。 这 里 x 
和 z 都 是 -1。 最 后 ， 转 移 到 f (2，-3 ) 函数 表明 z 为 -1， 因 为 x=2 和 y= -3。 

注意 , 可 以 使 用 print () 函数 来 查看 函数 的 代码 。 当 你 调试 不 是 自己 编写 的 程序 时 ， 这 是 很 
有 用 的 。 正 常情 况 下 你 可 以 简 述 函数 名 来 查看 代码 。 在 本 例 中 ，f 是 broswer 模 式 下 的 一 个 保留 
字 ， 意 味 着 “完成 当前 循环 或 函数 的 执行 ”; print () 明确 地 用 来 逃避 这 种 特殊 的 意义 。 

最 后 , c 带 你 回 到 菜单 栏 , 0 让 你 返回 正常 的 R 提 示 。 另 外 , 在 任何 时 候 按 a 都 可 以 返回 R 提 示 。 
要 了 解 更 多 的 一 般 情 况 下 的 尤其 是 mode 模 式 下 的 调试 技巧 ， 可 以 参考 Roger Peng 的 “An 
Introduction to the Interactive Debugging Tools in R” (http://mng.bz/GPR6 )。 


20.6 ”深入 学 习 


在 R 中 有 很 多 关于 高 级 编程 方面 的 卓越 的 信息 来 源 。“R Language Definition”( http://mng.bz/ 
U4Cm ) 是 学 习 高 级 编程 的 良好 起 点 。John Fox 写 的 “Frames, Environments, and Scope in R and 
S-PLUS” (https://socserv.socsci.mcmaster.ca/jfox/Books/Companion-1E/appendix-scope.pdf ) 是 一 篇 
很 好 的 理解 环境 范围 ( scope ) 的 文章 。Suraj Gupta 写 的 “How R Searches and Finds Stuff” 
( http://mng.bz/205B ) 是 一 篇 可 以 帮助 你 理解 标题 所 示 内 容 的 优秀 博客 文章 。 要 学 习 更 多 关于 高 
效 编程 的 方法 , 可 以 参考 Noam Ross 的 “FasteR! HigheR! StrongeR! 一 A Guide to Speeding Up R Code 
for Busy People”( http://mng.bz/1q3i )。 最 后 ，Robert Gentleman 的 R Programming for Bioinformatics 
( 2009 ) 对 于 希望 深入 底层 的 程序 员 来 说 是 一 本 全 面 易 用 的 书 。 我 强烈 将 其 推荐 给 每 一 位 想 成 为 
高 效 R 程 序 员 的 人 。 


20.7 小 结 


在 本 章 中 , 我 们 从 程序 员 的 角度 对 R 语 言 进 行 了 更 深入 的 研究 , 详细 讲述 了 对 象 、 数 据 类 型 、 
函数 、 环 境 和 范围 。 你 需要 了 解 $3 面 向 对 象 的 编程 方法 和 它 的 主要 局 限 性 。 最后， 本章 给 出 了 编 
写 高 效 代 码 和 调试 麻烦 程序 的 方法 。 

现在 ,你 已 经 拥有 了 创建 一 个 复杂 应 用 程序 需要 的 所 有 工具 。 在 下 一 章 中 , 你 将 会 从 头 创建 
一 个 包 。R 包 让 你 能 组 织 好 自己 的 程序 并 与 他 人 分 享 。 










































































































































































创建 包 








本 章 内 容 

口 为 包 创建 函数 

口 添加 包 文档 

口 创建 包 并 共享 给 他 人 











在 之 前 的 章节 中 ,你 是 使 用 别人 所 写 的 函数 来 完成 大 部 分 任务 的 。 那 些 函 数 来 自 R 标 准 安 装 
中 的 包 或 者 可 以 从 CRAN 下 载 的 包 。 

安装 新 的 包 可 以 拓展 R 的 功能 。 比 如 说 ， 安 装 mice 包 提供 了 处 理 缺 失 值 的 新 方法 。 安 装 
ggplot2 包 提供 了 可 视 化 数据 的 方法 。R 中 很 多 强大 的 功能 都 来 自 开发 者 贡献 的 包 。 

技术 上 , 包 只 不 过 是 一 套 函 数 、 文 档 和 数据 的 合集 ， 以 一 种 标准 的 格式 保存 。 包 让 你 能 以 一 
种 定义 良好 的 完整 文档 化 方式 来 组 织 你 的 函数 ， 而 且 便 于 你 将 程序 分 享 给 他 人 。 

下 面 是 几 条 你 可 能 想 创建 包 的 理由 。 
口 让 一 套 常用 函数 及 其 使 用 说 明文 档 更 加 容易 取 用 。 
口 创造 一 系列 能 够 分 发 给 学 生 的 例子 和 数据 集 。 
口 创造 一 个 能 解决 重要 分 析 问 题 ( 比如 对 缺失 值 的 插值 ) 的 程序 (一 套 相关 函数 )。 

创造 一 个 有 用 的 包 也 是 自我 介绍 和 回馈 R 社 区 的 好 办 法 。 包 可 以 直接 分 享 ,或 者 通过 如 CRAN 
和 GitHub 的 在 线 软 件 库 分 享 。 

本 章 中 ， 你 将 从 头 到 尾 开 发 一 个 包 。 学 完 本 章 ， 你 将 能 够 创建 自己 的 R 包 ( 并 享受 完成 如 此 
壮举 的 成 就 感 ， 以 及 对 此 炫 炊 的 权利 )。 

你 将 要 开发 的 包 名 为 npar。 它 提供 了 非 参 组 间 比 较 的 函数 。 如 果 结 果 变 量 是 非 正 态 或 者 异 
方差 的 ， 这 一 套 分 析 技 术 可 以 用 来 比较 两 组 或 多 个 组 。 这 是 分 析 师 经 常 遇 到 的 一 个 问题 。 

在 继续 阅读 之 前 ， 请 用 以 下 代码 

pkg et= "narcl: 0 tary iz, 

loc <- "http://www.statmethods.net/RiA" 

url <- paste(loc, pkg, sep="/") 


download.file(url, pkg) 
install.packages (pkg, repos=NULL, type="source") 
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从 statmethods net 网 站 下 载 包 ， 然 后 保存 到 你 现在 的 工作 目录 。 接 着 把 它 安装 到 默认 的 R 库 当中 。 
在 22.1 节 中 ， 你 会 把 npar 包 当成 一 个 测试 的 地 方 。 该 节 会 描述 和 展示 它 的 功能 特性 和 函数 。 
接着 在 22.2 节 中 ， 你 会 从 头 开始 创建 包 。 


21.1 非 参 分 析 和 npar 包 


非 参 分 析 是 一 种 数据 分 析 方法 ， 它 在 传统 参数 分 析 的 假设 ( 比如 说 正 态 性 和 同方 差 ) 不 成 立 
的 情况 下 特别 有 用 。 这 里 ， 我 们 会 着 重 比较 两 组 或 多 组 相互 独立 的 数值 结果 变量 的 方法 。 

我 们 对 npar 包 里 的 1ife 数 据 集 进 行 探究 。 它 提供 了 对 2007~2009 年 美国 每 个 州 65 岁 者 的 健康 
预期 寿命 ( Healthy Life Expectancy，HLE )。 估 计 值 分 别针 对 男性 (hlem ) 和 女性 (hlef )。HLE 
数据 来 自 美 国 疾病 控制 与 预防 中 心 ( Centers for Disease Control and Prevention ) 的 论文 
( http://mng.bz/HTGD )。 

数据 集 也 提供 了 一 个 名 为 region (地 区 ) 的 变量 ， 此 变量 分 为 东北 部 、 中 北部 、 南 部 和 西 
部 。 我 从 R 标 准 安 装 中 的 state 5 region 数 据 框 中 提取 此 变量 ， 并 添加 到 所 关注 的 数据 集中 o 

假设 你 想 知 道 女 性 的 HLE 佑 值 是 否 在 不 同 地 区 有 显著 的 不 同 。 一 种 方法 是 使 用 第 9 章 所 描述 
的 单 因素 方差 分 析 。 不 过 方差 分 析 假 设 结 果 变 量 是 正 态 分 布 的 , 并 且 不 同 地 区 之 间 的 方差 是 相同 
的 。 让 我 们 对 这 两 个 假设 进行 检查 。 

女性 的 HLE 估 值 的 分 布 可 以 用 直方 图 来 可 视 化: 

library (npar) 

hist(lifeshlef, xlab="Healthy Life Expectancy (years) at Age 65", 


main="Distribution of Healthy Life Expectancy for Women", 
col="grey", breaks=10) 


图 21-1 展 示 了 此 直方 图 。 很 明显 ， 因 变量 是 负 偏 的 ， 较 低 的 值 数量 较 少 。 
不 同 地 区 的 HLE 分 数 的 方差 可 以 用 并 排 点 图 来 可 视 化 ( 详 见 第 19 童 ): 


library (ggplot2) 
ggplot (data=life, aes (x=region, y=hlef)) + 
geom point (size=3, color="darkgrey") + 
lJabs (title="Distribution of HLE Estimates by Region", 
X="US Region", y="Healthy Life Expectancy at Age 65") + 
theme_bw() 


图 21-2 展 示 了 以 上 代码 的 结果 ， 图 中 的 每 个 点 表示 一 个 州 。 每 一 个 地 区 的 方差 都 有 所 不 同 ， 东北 
部 和 南部 的 方差 差异 最 大 。 
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Distribution of Healthy Life Expectancy for Women 


12 


10 


Frequency 
6 





Healthy Life Expectancy (years) at Age 65 








图 21-1 ”2007~2009 年 美国 65 岁 女性 的 HLE 分 布 。 估 值 是 负 偏 的 ( 较 低 的 值 数量 较 少 ) 








Distribution of HLE Estimates by Region 


Healthy Life Expectancy at Age 65 





North Central Northeast South West 
US Region 
图 21-2 ”每 一 个 地 区 的 HLE 的 点 图 。 四 个 地 区 之 间 的 HLE 估 值 的 变化 大 小 有 差异 ( 比 
较 东 北部 和 南部 ) 


因为 此 数据 不 符合 方差 分 析 的 两 个 重要 假设 〈 正 态 性 和 同方 差 性 )， 所 以 你 需要 不 同 的 分 
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析 方 法 。 不 像 方差 分 析 ， 非 参 方法 不 作出 正 态 性 和 同方 差 的 假设 。 在 这 个 案例 中 ， 你 只 需要 假 
设 数 据 是 有 序 的 一 一 更 高 的 分 值 意味 着 更 高 的 HLE。 因 此 ， 对 于 此 问题 ， 非 参 方 法 是 一 个 合理 
的 选择 。 


用 npar 包 比 较 分 组 


你 可 以 使 用 npar 包 比较 独立 组 别 的 数值 型 因 变 量 ， 至 少 要求 它 是 有 序 的 。 对 于 数值 型 因 变 
量 和 分 类 型 分 组 变量 ， 它 提供 了 以 下 几 个 方面 。 

口 综合 Kruskal-Wallis 检 验 ， 检 验 组 间 是 否 有 差异 。 

口 每 一 组 的 描述 性 统计 量 。 

口 事后 比较 ( Wilcoxon 秩 和 检验 )， 即 每 次 进行 两 组 之 间 的 比较 。 检 验 得 到 的 p 值 可 以 调整 ， 
以 进行 多 重 比 较 。 

口 带 有 注释 的 并 排 箱 线 图 ， 用 于 可 视 化 不 同 组 别 之 间 的 差异 。 

以 下 代码 清单 展现 了 用 npar 包 对 不 同 地 区 女性 的 HLE 估 值 进行 比较 。 


代码 清单 21-1 用 npar 包 对 HLE 佑 值 进行 比较 


> library (npar) 

> results <- oneway (hlef ~ region, life) 

> summary (results) 

data: hlef on region 组 间 差 异 总 


检验 
























































Omnibus Test 
Kruskal-Wallis chi-squared = 17.8749, df = 3, p-value = 0.0004668 


Descriptive Statistics 





South North Central West Northeast 
n 16.000 12.00 13.0000 9 .000 总 体 统 计量 
median 13.000 15.40 15.6000 EB, 00 
mad 1.483 :26 "0kA4L3 0.:593 
Multiple Comparisons (Wilcoxon Rank Sum Tests) 
Probability Adjustment = holm 
Group.1 Group.2 Ww p 
South North Central 28.0 0.008583 ** 
2 South West 27.0 0.004738 ** 
寸 分 如 交 
3 South Northeast 17.0 0.008583 ** | 局 成 对 分 组 比较 
4 North Central West 63.5 1.000000 
5 North Central Northeast 42.0 1.000000 
West Northeast 54.5 1.000000 
ST OE 0 OL OL OB 
> plot (results, col="lightblue", main="Multiple Comparisons", 
EE :二 下 
xlab="US Region", 带 有 注释 
ylab="Healthy Life Expectancy (years) at Age 65") 的 箱 线 图 





首先 ， 代 码 运 行 了 一 个 Kruskal-Wallis 检 验 @。 这 是 一 个 对 不 同 地 区 间 HLE 差 异 的 总 体检 验 。 
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小 的 p 值 (0.0005 ) 指出 确实 存在 差 


[= 
A 





接着 ,每 一 个 地 区 的 描述 性 统计 量 也 计算 了 出 来 (样本 量 、 中 位 数 和 绝对 离 差 中 位 数 ) @。 
东北 部 的 HLE 估 值 最 高 ( 中 位 数 为 15.7 年 )， 南 部 的 估 值 最 低 ( 中 位 数 为 13.0 年 )。 地 区 变化 量 最 
小 的 是 东北 部 (绝对 离 差 中 位 数 为 0.59 )， 最 大 的 是 南部 ( 绝对 离 差 中 位 数 为 1.48 )。 

尽管 Kruskal-Wallis 检 验 表 示 不 同 地 区 的 HLE 有 差异 , 但 是 没有 指出 有 多 大 差异 。 若 要 得 出 此 信 
息 ， 需 要 用 Wilcoxon 秩 和 检验 来 成 对 地 进行 分 组 比较 和 @。 对 于 四 个 组 别 ， 有 4x(4-1)/2 即 6 次 比较 。 


南部 和 中 北部 之 间 的 差异 是 统计 上 显著 的 (p=0.009 )， 而 东北 部 和 中 北部 之 间 的 差异 并 不 显 





著 (p=1.0 )。 实 际 上 ， 南 部 和 其 他 
































岂 区 都 有 所 差异 ， 但 是 其 他 地 区 之 间 的 差异 并 不 显著 。 








在 计算 多 重 比较 的 时 候 ， 必 须 考虑 到 alpha 膨 胀 的 可 能 性 : 实际 上 组 别 之 间 并 没有 显著 差异 ， 
但 是 计算 出 存在 差异 的 概率 有 所 上 升 。 对 于 六 次 独立 的 比较 过 程 , 至 少 有 一 次 计算 出 错误 差异 的 


几率 是 1-(1-0.05)5 或 0.26。 


发 现 至 少 一 个 错误 的 几率 在 四 分 之 一 左右 ， 所 以 你 可 能 想 对 每 一 次 比较 的 p 值 向 上 调整 〈 使 














得 检验 更 加 紧凑 ， 指 出 差异 的 概率 更 低 )。 这 样 做 会 使 得 整体 错误 率 ( 多 组 比较 出 现 一 个 或 多 个 
错误 差异 的 概率 ) 保持 在 一 个 合理 的 水 平 ( 比如 0.05 )。 
oneyway ( ) 国 数 使 用 R 标 准 安装 的 bp.adqjust () 函数 来 完成 这 个 功能 .pb .adjust () 函数 用 很 








多 种 方法 的 其 中 一 种 来 对 多 重 比较 


Holm 校 正 更 加 强大 ， 因 此 后 者 被 设置 为 默认 选项 























的 p 值 进行 调整 。 尽 管 Bonferonni 校 正 可 能 最 广为人知 ,但 是 
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使 用 图 形 最 容易 看 出 不 同 组 别 之 间 的 差异 。plot () 语 句 @ 在 图 21-3 中 生成 了 并 排 的 箱 线 图 。 
一 条 水 平 虚线 表示 所 有 观测 值 总 体 的 中 位 数 。 
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Healthy Life Expectancy (years) at Age 65 
12 14 








图 21-3 ”有 标记 的 箱 线 图 ， 展 现 了 每 一 组 的 差异 。 这 幅 图 标记 了 每 一 组 的 中 位 数 和 样 


Multiple Comparisons 


md=15.4 md=15.6 md=15.7 
n=12 n=13 n=9 





North Central West Northeast 


US Region 

















本 量 。 水 平 虚线 表示 总 体 样本 的 中 位 数 
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这 些 分 析 明 显 地 指出 南部 女性 很 可 能 在 65 岁 之 后 的 预期 寿命 更 短 。 这 对 健康 服务 的 分 布 和 侧 
重点 也 有 所 启示 。 你 也 许 想 分 析 一 下 男性 的 HLE 佑 值 ， 看 看 是 否 有 类 似 的 结论 。 

下 一 节 描 述 了 npar 包 的 代码 文件 ， 你 可 以 从 www.statmethods.net/RiA/nparFiles.zip 下 载 并 保 
存 它 们 (节省 一 些 自己 打字 的 时 间 )。 


21.2 开发 包 


npar 包 有 四 个 图 数 : oneway() 、print.oneway() 、summary.oneway() 和 plot. 
oneway () 。 第 一 个 是 主 函 数 ， 计 算 相 关 的 统计 量 ; 另外 三 个 是 用 于 输出 和 画图 的 S3 面 向 对 象 泛 
型 国 数 ( 见 20.3.1 节 )。 这 里 ，oneway 表 明 有 一 个 单一 分 组 因子 。 

一 个 不 错 的 办 法 是 把 每 个 函数 分 别 放 在 扩展 名 为 .R 的 不 同文 本 文件 中 。 尽 管 这 不 是 严格 要 
求 , 但 是 能 使 你 更 好 地 组 织 工作 。 此 外 ,尽管 并 不 要 求 函 数 名 和 文件 名 相同 ,不 过 这 是 一 个 好 的 
代码 习惯 。 代 码 清单 21-2~ 代 码 清单 21-5 列 出 了 文件 的 内 容 。 

每 个 文件 的 头 部 都 包括 一 系列 以 #' 开 头 的 注释 。R 解 释 器 会 忽略 它们 ， 不 过 你 可 以 使 用 
roxygen2 包 来 把 这 些 注 释 转换 为 你 的 包 文档 。21.3 节 会 讨论 这 些 头 部 注释 。 

oneway () 函数 计算 相关 的 统计 量 ，print () 、summary () 和 plot () 展示 结 果 。 下 一 节 , 你 
将 会 开发 oneway () 函数 。 


21.2.1 计算 统计 量 
oneway.R 文 件 中 的 oneway () 函数 计算 所 有 所 需 的 统计 量 。 
代码 清单 21-2 ”oneway.R 文 件 的 内 容 ? 


' @title 非 参 组 间 比 较 







































































' @description 
' \code{oneway} 计 算 非 参 组 间 比 较 ， 包 括 综 合 检 验 和 事后 成 对 组 间 比 较 


' @details 

”这 个 函数 计算 了 一 个 综合 Kruskal-Wal1is 检 验 ， 用 于 检验 组 别 是 否 相 等 ， 接 着 使 用 nilcoxon 秩 和 检验 来 
' 进行 成 对 比较 。 如 果 因 变量 之 间 没 有 相互 依赖 的 话 ， 可 以 计算 精确 的 Wilcoxon 检 验 。 使 用 \code{\link{p. 
' adjust}} 来 对 多 重 比较 所 得 到 的 p 值 进行 调整 


' @param formula 一 个 formula 类 的 对 象 ， 用 于 表示 因 变 量 和 分 组 变量 之 间 的 联系 

' @param data 一 个 包含 了 模型 里 变量 的 数据 框 

' @param exact 人 逻辑 型 变量 。 如 \code{TRUE}， 计算 精确 的 Wilcoxon 检 验 

' @Qparam sort 人 逻辑 型 变量 。 如 果 \code{TRUE}， 用 因 变 量 中 位 数 来 对 组 别 进行 排序 
' @param 用 于 调整 多 重 比 较 的 p 值 的 方法 














为 便于 读者 理解 , 代码 清单 21-2 ~ 代码 清单 21-8 中 的 代码 注释 已 翻译 为 中 文 。 读者 可 在 本 书 位 于 图 灵 社 区 的 “ 随 
书 下 载 ” 页 面 ( http://www.ituring.com.cn/book/1699 ) 下 载 代码 并 运行 程序 ， 由 于 兼容 性 问题 此 程序 不 支持 中 文 
格式 。 一 一 译 者 注 






























































#' @Gexport 

#' Q@return 一 个 有 7 个 元 素 的 列表 : 

#' \item{CALL}){ 远 数 调 用 } 

#' Aitemfaata}{ 包 含 因 变量 和 组 间 变 量 的 数据 框 } 

#' \item{sumstats}{ 包 含 每 组 的 描述 性 统计 量 的 数据 框 } 

#' \item{kw} {Kruskal-Wallis 检验 的 结果 } 

#' \item{method}{ 用 于 调整 p 值 的 方法 } 

#' Aitem{fwmc}{ 和 包含 多 重 比较 的 数据 框 } 

#' Nitemftvnames}{ 变 量 名 } 

#' @author Rob Kabacoff <rkabacoff@@statmethods.net> 
#' @Gexamples 

#' results <- oneway (hlef ~ region, life) 

#' summary (results) 

#' plot (results, col="lightblue", main="Multiple Comparisons", 


#1! xlab="US Region", ylab="Healthy Life Expectancy at Age 65") 
oneway <- function(formula, data, exact=FALSE, sort=TRUE, 函数 调用 
methodq=c("holm"， "hochberg", "hommel", "bonferroni", 
"BH "BY" "Edr", “ione"))t 

if (missing(formula) || class(formula) != "formula" || 

length(all.vars (formula)) != 2) 

StOoOp( Eonmla Te Nisin Or Ineorrecet") 检查 参数 
method <- match.arg (method) 
df <- model.frame (formula, data) 
Y <- df[[1]] 设 定数 据 
9 <= asfactor(aE[i[2]] 
vnames <- names (df) 
if(sort) g <- reorder(g, y, FUN=median) 
groups <- levels(g) 6 重新 排序 
k <- nlevels(g) 
getstats <- function(x) (c(N = length(x), Median = median (x), 

MAD = mad (x))) ee 
sumstats <- tl(aggregate(ly, by=list(g), FUN=getstats) [2]) 区 5 总 体 统计 量 
rownames (sumstats) <- c("n", "median", "mad") 
colnames (sumstats) <- groups 
kw <- kruskal.test (formula, data) 
wmc <- NULL 
for (i in 1:(k-1))f{ 
GE 区 于 下 于 让 二 区 小 攻 

yl <- YyY[g==groups[il]] 

Y2 <- yl9g==groups[j]] 

test <- wilcox.test (yl, y2, exact=exact) | 有 统计 检验 

r <- data.frame (Group.1=groups[i], Group.2=groups[j], 

W=test$statistic[[1]], p=tests$p.value) 
# note the [[]] to return a single number 
wmc <- rbind (wmc, Ir) 
3 

wmcsp <- p.adjust (wmc$p, method=method) 








data <- data.frame(y, 9g) 
names (data) <- vnames 
results <- list (CALL = match.call(), 


data=data, ,© 返回 结果 


sumstats=sumstats, kw=kw, 
method=method, wmc=wmc, vnames=vnames) 
class(results) <- c("oneway", "list") 
return(results) 


} 

头 部 包含 以 #' 开 头 的 注释 ,它们 会 被 roxygen2 包 用 于 生成 包 文档 ( 见 21.3 节 )。 接 下 来 你 会 
看 到 列 出 的 函数 参数 @。 用 户 提供 一 个 形 为 因 交 量 一 分 组 交 量 的 模型 公式 和 一 个 包含 了 数据 的 数 
据 框 。 上 默认 会 计算 出 近似 的 p 值 ， 并 按照 因 变 量 中 位 数 对 组 别 排序 。 用 户 可 以 从 八 种 调整 p 值 的 方 
法 选择 一 种 ， 其 中 holm 方 法 ( 列 出 的 第 一 个 选项 ) 是 默认 选择 。 

一 旦 用 户 输入 了 参数 ， 函 数 会 检查 参数 是 否 有 误 @。if () 函数 检查 了 : 没有 漏 掉 模 型 公式 ， 
确实 是 一 个 模型 公式 ( 变量 ~ 变量 ),， 波 浪 号 ( ~ ) 左右 各 有 且 只 有 一 个 变量 。 如 果 这 三 个 条 件 
任意 之 一 不 成 立 , stop () 函数 会 中 断代 码 的 运行 , 输出 一 个 错误 信息 , 给 用 户 返 回 一 个 R 提 示 符 。 
如 果 要 调试 的 话 ， 你 可 以 用 options (error=) 函数 来 修改 错误 行为 。 细 节 参 见 20.5.3 节 。 

match.arg (arg，choices) 函数 确保 用 户 输入 的 参数 与 choices 字 符 型 向 量 的 一 个 字符 
串 相 匹配 。 如 果 不 匹 配 ， 就 会 抛 出 一 个 错误 ， 然 后 oneway () 会 退出 。 

接 下 来 ，model .frame () 函数 用 于 创建 一 个 数据 框 ， 其 中 第 一 列 是 因 变 量 ， 第 二 列 是 分 组 
变量 四。 总 的 来 说 ，modael .frame () 返 回 一 个 包含 模型 公式 中 所 有 变量 的 数据 框 。 在 这 个 数据 
框 中 ， 你 创建 了 一 个 包含 因 变 量 的 数值 型 向 量 (y ) 和 包含 分 组 变量 的 因子 型 向 量 ( g )。 字 符 型 
问 量 vnames 包 含 了 变量 名 。 

如 果 sort=TRUE， 使 用 reorder () 函数 对 分 组 变量 g 按 照 因 变量 y 的 中 位 数 进行 排序 @。 这 
是 默认 的 行为 。 字 符 型 向 量 groups 包 含 了 每 一 组 的 名 字 ，k 的 值 是 组 的 数量 。 

然后 ， 一 个 数值 矩阵 ( sumstats ) 被 创建 了 出 来 ， 包 含 每 一 组 的 样本 量 、 中 位 数 和 绝对 离 
差 中 位 数 @。aggregate() 函数 使 用 getstats () 函数 来 计算 总 体 统计 量 , 剩 下 的 代码 对 表格 进 
行 格式 化 : 每 一 列 是 一 个 组 别 ， 每 一 行 是 一 个 统计 量 ( 我 认为 这 样 更 有 吸引 力 )。 

接 下 来 进行 一 些 统计 检验 @。Kruskal-Wallis 检 验 的 结果 被 保存 到 名 为 kw 的 列表 。for () 函数 
计算 了 每 一 对 Wilcoxon 检 验 。 成 对 检验 的 结果 被 保存 到 名 为 wmc 的 数据 框 中 : 
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Group.1 Group.2 Ww p 
J South North Central 28.0 0.008583 
2 Southn West 27.0 0.004738 
3 Soutnh Northeast 17.0 0.008583 
4 North Central West 63.5 1.000000 
5 North Central Northeast 42.0 1.000000 
6 West Northeast 54.5 1.000000 
这 里 Group .1 和 Group .2 表明 了 要 互相 进行 比较 的 组 别 ，w 是 Wilcoxon 统 计量 ,p 是 (调整 后 ) 每 
一 次 比较 的 p 值 。 


最 后 , 结果 被 打包 并 作为 一 个 列表 返回 @。 这 个 列表 包括 七 个 分 量 , 表 21-1 总 结 了 这 些 分 量 。 
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另外， 把 这 个 列表 的 类 设置 为 c ("wmc"，"1list") 。 这 是 使 用 泛 型 函数 处 理 对 象 的 重要 步 又 。 
表 21-1 wmec () 函数 返回 的 对 象 





























分 量 描述 

CADD 函数 调用 

data 包含 因 变 量 和 分 组 变量 的 数据 框 

sumstats 每 一 列 是 组 别 ， 每 一 行 分 别 是 vx、median 和 和 mad 的 数据 框 
kw 有 五 个 分 量 的 列表 ， 包 含 Kruskal-wallis 检 验 的 结果 
method 单元 素 的 字符 型 向 量 ， 包 含 用 于 为 多 组 比较 调整 p 值 的 方法 
we 包含 多 重 比较 的 四 列 数 据 框 

vnames 变量 








尽管 列表 提供 了 所 有 需要 的 信息 , 但 你 一 般 不 会 直接 获取 单个 分 量 的 信息 。 相 反 ， 0 
建 泛 型 函数 print () 、summary () 和 plot () ， 以 更 加 具体 和 有 意义 的 方法 来 表达 它们 。 下 一 
我 们 会 讨论 这 些 泛 型 函数 。 








21.2.2 ”打印 结果 


各 个 领域 的 大 部 分 分 析 兄 数 都 伴随 着 对 应 的 泛 型 函数 print () 和 summary()。print() 提 
供 了 对 和 象 的 基本 或 原始 信息 ，summary () 提供 了 更 加 具体 或 处 理 (汇总 ) 过 的 信息 。 如 果 图 形 在 
上 下 文中 是 有 意义 的 ，plot () 函数 也 经 常 一 起 提供 。 

根据 20.3. ta ee walt 如 果 一 个 对 象 有 类 属性 "foo" ， 则 print (x) 在 
print.foo() 也 数 存在 时 运行 print.foo(x) ， 在 print.foo() 子 数 不 存在 时 运行 
print .default (x)。summary () 和 plot () 也 有 着 同样 的 规则 。 We 函数 返回 一 个 
类 为 " oneway" 的 对 象 ， 所 以 你 需 需要 定义 print.oneway () 、 summary .oneway () 和 
plot .oneway () 函数 。 代 码 清单 21-3 给 出 了 print .oneway () 函数 。 

对 于 1ife 数 据 集 ，print(results) 生 成 了 多 重 比较 的 基本 信息 : 


data: hlef by region 















































Multiple Comparisons (Wilcoxon Rank Sum Tests) 
Probability Adjustment = holm 


Group.1 Group.2 W p 
1 South North Central 28.0 0.008583 
2 South West 27.0 0.004738 
3 South Northeast 17.0 0.008583 
4 North Central West 63.5 1.000000 
5 North Central Northeast 42.0 1.000000 
6 West Northeast 54.5 1.000000 














代码 打印 了 一 个 有 信息 量 的 头 部 ， 接 着 是 Wilcoxon 统 计量 和 调整 后 每 一 对 组 别 的 p 值 ( Group .1 和 
Group .2 )s 
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代码 清单 21-3 ”print.R 文 件 的 内 容 


' etitle 打 印 多 重 比较 的 结果 





' @description 
' \code{print .oneway} 打 印 了 多 重组 间 比 较 的 结果 





' @details 
”这 个 函数 打印 出 用 \codqe{fNLinkfoneway}} 有 函数 所 创建 的 Wilcoxon 成 对 多 重 比较 的 结果 


' @param X 一 个 \code {oneway} 类 型 的 变量 

' @param ... 要 传输 给 函数 的 额外 的 变量 

' @method print oneway 

' @export 

' @return 静 默 返 回 输入 的 对 象 

' @author Rob Kabacoff <rkabacoff@@statmethods.net> 
' @Qexamples 

' results <- oneway (hlef ~ region, life) 

' print (results) 








print.oneway <- function(x, ...){ 
if (!inherits(x, "oneway")) | 局 检查 输入 
stop("Object must be of class 'oneway'") 
cat ("data:", x$vnames[1], "by", x$vnames{[2], "\n\n") 忆 打印 头 部 
cat ("Multiple Comparisons (Wilcoxon Rank Sum Tests)\n") 
cat (paste ("Probability Adjustment = ", xS$method, "\n", sep="")) 


print (x$wmc, ...) 
} 0 打印 表格 


头 部 包含 以 #' 开头 的 注释 ， 它 们 会 被 roxygen2 包 用 于 生成 包 文 档 ( 见 21.3 节 )。 
inherits() 函数 用 于 确保 被 提交 的 对 象 有 "oneway "这 个 类 @ ,一 系列 cat () 函数 打印 了 对 分 
析 过 程 的 描述 @。( 尽管 原本 可 以 写成 单个 cat () 函数 ， 但 是 我 觉得 现在 的 代码 可 读 性 更 高 。) 
最 后 ， 调 用 print .default ()， 把 多 重 比较 打印 出 来 人 @。summary .oneway () 函数 将 在 下 文 


讨论 。 





21.2.3 汇总 结果 


与 print () 函数 相 比 ，summary () 函数 生成 的 输出 更 加 人 全面， 处理 得 更 好 。 对 于 健康 预期 寿 
命 数据 ，summary (results) 语 句 生 成 如 下 结果 : 





data: hlef on region 


Omnibus Test 
Kruskal-Wallis chi-squared = 17.8749, df = 3, p-value = 0.0004668 
Descriptive Statistics 


South North Central West Northeast 
n 16.000 L200° T30000: 9.000 
median 13.000 Low40, T56000 15::7Q0 
mad 1.483 T1326 0 7413 QS93 


Multiple Comparisons (Wilcoxon Rank Sum Tests) 
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Probability Adjustment = holm 
Group.1 Group.2 W p 
1 South North Central 28.0 0.008583 ** 
2 South West 27.0 0.004738 ** 
3 South Northeast 17.0 0.008583 ** 
4 North Central West 63.5 1.000000 
5 North Central Northeast 42.0 1.000000 
6 West Northeast 54.5 1.000000 
STOUBE., CEOS 0 Tt Ou00l TEE O00 TE On Tw Od 








此 输出 包含 了 Kruskal-Wallis 检 验 的 结果 、 每 一 组 的 描述 性 统计 量 ( 相 


fF 本 量 、 中 位 数 和 绝对 离 








差 中 位 数 ) 以 及 多 重 比 较 的 结果 。 此 外 ,多 重 比 较 的 表格 月 
21-4 列 出 了 summary .oneway () 图 数 的 内 容 。 


代码 清单 21-4 ”summary.R 文 件 的 内 容 





有 星 号 来 标记 出 显著 的 结果 。 代 码 清单 


#' @title 汇 总 单 因子 非 参 分 析 的 结果 
#1 
#' @description 
#' \code{summary .oneway} 汇 总 了 单 因 子 非 参 分 析 的 结果 
# nonparametric analysis . 
过 
#' @details 
#! 这 个 函数 对 \code{\1link{oneway}} 咏 数 所 分 析 的 结果 进行 汇总 并 打印 。 这 和 包括 了 每 一 组 的 描述 性 统计 量 ， 
#， 一 个 综合 Kruskal-Wallis 检 验 的 结果 ， 以 及 一 个 Wilcoxon 成 对 多 重 比 较 的 结果 
非 
#' @param object 一 个 \code{oneway} 类 型 的 对 象 
#' eparam ... 额外 的 参数 
#' @method summary oneway 
#' @Gexport 
#' @return 静 默 返 回 输入 的 对 象 
#' @author Rob Kabacoff <rkabacoff@@statmethods.net> 
#' Qexamples 
#' results <- oneway (hlef ~ region, life) 
#' summary (results) 
summary .oneway <- function(object, a 
if (!inherits(object, "oneway")) 
stop("Object must be of class 'oneway'") 
if(!exists("digits")) digits <- 4L 
kw <- objectSskw 
wmc <- objects$wmc 
cat ("data:", object$vnames[1], "on", object$svnames[2], "\n\n") 


cat ("Omibus Test\n") 
cat (paste ("Kruskal-Wallis chi-squared 
round (kw$sstatistic,4), 


", df = ", round(kw$parameter, 3), 
", p-value = "， 
format.pval (kwsp.value, digits = digits), 


TN NL sep=" Ln 


Kruskal-Wallis 


检验 
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cat ("Descriptive Statistics\n") 有 , 描述 性 统计 量 


print (object$ssumstats, ...) 





wmcsstars <- " " 

wmcsstars[wmcsp < 有 下 由- 二 一 下 区 

wmcsstars[wmncsp < 05] <- "x*" 局 表格 标记 

wmcsstars[wmcsp < 01] <- "**" 

wmcsstars[wmcsp < .001] 二 

names (wmc) [which (names (wmc)=="stars")] <- " " 

cat("\nMultiple Comparisons (Wilcoxon Rank Sum Tests)\n") 
成 对 分 cat (paste("Probability Adjustment = ", objects$method, "\n", sep="")) 
组 比较 print (wmc, ...) 

at(u=e Nn "Odes 0 Vy O00 EE, V0 Ve OOo Tod Ol 

TS 


} 


被 传 到 函数 的 对 象 一 定 是 "oneway" ， 否 则 会 抛 出 一 个 错误 。 注 意 ， 尽 管 print .oneway () 
函数 的 输入 参数 是 x, 但 是 summary ( ) 函数 的 输入 参数 是 object。 我 选 先 择 这 文 些 命 名 是 想 与 R 基 本 
安装 的 print .default () 和 summary .default( ) 函数 的 参数 名 保持 一 致 。 在 详细 信 ， 息 的 后 面 ， 
代码 输出 Kruskal-Wallis 检 验 的 结果 @。format .pval () 函数 格式 化 p 值 的 输出 。 

接 下 来 , 打印 每 一 组 的 描述 性 统计 量 ( 样本 量 、 中 位 数 和 绝对 离 差 中 位 数 ) @。 在 输出 每 一 
对 组 别 比较 的 结果 之 前 , 一列 星 号 被 添加 到 数据 框 中 四。 这 一 列 用 来 作为 表格 中 的 标记 ， 它 标记 
出 每 次 检验 的 显著 水 平 (0.1、0.05、0.01 或 0.001 )。 不 显著 的 结果 用 空白 ( 空 字符 串 ) 来 表示 。 
以 下 语句 : 


names (wmc) [which (names (wmc)=="stars")] <- " " 
删除 了 标记 列 的 列 名 。 你 也 可 以 使 用 以 下 语句 : 
names (wmc) [5] <- " " 


不 过 如 果 列 的 顺序 随后 改变 , 该 语句 就 会 失效 。 标记 后 的 结果 会 被 输出 人 @,， 而 且 在 表格 的 下 方 有 
对 应 标记 含义 的 提示 。 















































21.2.4 绘制 结果 
最 后 的 函数 plot () 对 oneway () 函数 返回 的 结果 进行 可 视 化 : 


plot (results, col="lightblue", main="Multiple Comparisons", 
xlab="US Region", 
ylab="Healthy Life Expectancy (years) at Age 65") 


图 21-3 提 供 了 绘制 出 的 结果 。 
不 像 标准 的 箱 线 图 ， 这 这 幅 图 提供 了 展现 每 一 组 中 位 数 和 样本 量 的 标记 ,还 有 一 条 展现 出 总 体 
中 位 数 的 虚线 。 下 面 展示 了 plot .oneway () 函数 的 代码 。 
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代码 清单 21-5 ”plot.R 文 件 的 内 容 
#' etitle 对 非 参 组 间 比 较 的 结果 进行 绘图 
#1! 
#' @description 
#! \code{plot.oneway} 对 非 参 组 间 比 较 的 结果 进行 绘 
#1! 
#' @details 
#' 这 个 函数 使 用 标记 了 的 并 排 箱 线 图 对 \code{\1ink{oneway}} 汤 数 所 生成 的 非 参 组 间 比 较 结果 进行 绘图 。 
#' 中 位 数 和 样本 量 被 放置 在 图 的 上 方 。 总 体 中 位 数 用 一 条 虚 横 线 进行 表示 
#1! 
#' @param x 一 个 \code{oneway} 类 型 的 对 象 
#' eparam ... 被 传递 给 \code{\1link{boxplot}} 蕊 数 的 额外 参数 
#' @method plot oneway 
#' @Qexport 
#' @return NULL 
#' @author Rob Kabacoff <rkabacoff@@statmethods.net> 
#' Qexamples 
#' results <- oneway (hlef ~ region, life) 
#' plot (results, col="lightblue", main="Multiple Comparisons", 
#1 xlab="US Region", ylab="Healthy Life Expectancy at Age 65") 
plot.oneway <- function(x, ...)f{ 
if (!inherits(x, "oneway")) | 有 检查 输入 
stop("Object must be of class 'oneway'") 


} 


data <- x$data 

y <- data[l,1] 

g <- datal[l,2] 

stats <- x$sumstats 局 生成 箱 线 图 
1 <=> paste("mo=";, stats[2;]; "Nnn="»; statsi{[l;]; SeB="™") 

opar <- parl(no.readonly=TRUE) 
par (mar=c(5,4,8,2)) 

boxplot (y~g, ...) 





abline (h=median(y), lty=2, col="darkgrey") 为 图 添加 标记 
axis(3, at=1:length(lbl), labels=lbl, cex.axis=.9) 
par (opar) 


首先 ， 要 检查 被 传 到 函数 的 参数 的 类 型 @。 人 然后 ， 代 码 提取 出 原始 的 数据 ， 面 出 箱 线 图 @。 
接 下 来 添加 标记 ( 中 位 数 、 样 本 量 和 总 体 中 位 数 ) 全 。 使 用 abline () 函数 来 添加 总 体 中 位 数 那 


使 用 axis () 函数 在 图 像 项 部 添加 中 位 数 和 样本 量 。 

















现在 ， 各 个 函数 都 创建 好 了 ， 是 时 候 添加 数据 集 来 测试 它们 了 。 


21.2.5 添加 样本 数据 到 包 
在 创造 包 的 时 候 , 加 上 一 个 或 多 个 可 用 于 试验 所 提供 函数 的 数据 集 是 一 个 好 主意 。 对 于 npar 




















WU 





包 ， 这 包括 添加 1ife 数 据 框 ， 见 代码 清单 21-6。 将 数据 集 以 .rda 文 件 的 形式 添加 到 包 里 面 。 
代码 清单 21-6 ”创建 1ife 数 据 框 


region <- c(rep("North Central"，12)，Lrep("Northeast"，9)， 


rep("South", 16), rep("West", 13)) 
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state <- c("IL", "IN", "IA", "KS", "MI", "MN", "MO", "NE", "ND", "OH", "SD", "WI", 


"CT", "ME", "MA", "NH", "NJ", "NY", "PA", "RI", "VT", "AL", "AR", "DE", 
"FL", "GA , "KY", "LA", "MD", "MS", "NC", "OK", "SC", "TN", "TX", "VA", 
WV", "ARK", "AZ", "CA", "CO", "HI", "ID", "MT", "NV", "NM", "OR", "UT", 




















"WA", "WY") 

lLe, > G( E20 L224 13d 3 2 Ed 3 2 2 3 3 3 
L437 L330 lds 2 L367 2 .By 3 LL3r95 10 .3 116 L3 m9 
se ph i ea ei BO /We MR Ne BE oh Pe eA Ep WO eh pt Sy A OL ys We EE We 
03333 7 L381L4s3 Lo 13. TwLl3 .4 L258, L133 9 L433 Ld; 
13;.7) 

liLet me- G(L4: 3 L147 Lor9,. E93. Ld. L675 Tr ED 716y 4 L164 61 LOw 
Sy Ne fe HP Bs oS 2 S TS 5 Ee pd eA 0 SA WR o 2 og eh 2 BN BS tk 
L3511 :67 L239 31 sd 13 L290 L306 125 13d L490 L1G 
Ae BM Se i I Sp Sp EN ES 0 eS i Bh Se PA ete lA i ee 








life <- data.frame (region=factor(region), state=factor(state), hlem, hlef) 


save(life, file='life.rda') 


save () 国 数 把 数据 框 life.rda 保 存 到 当前 工作 目录 。 在 21.4 节 生成 最 后 的 包 时 ， 把 这 个 文件 移 
动 到 包 文 件 树 的 data 子 文件 夹 里 。 
你 也 需要 创建 一 个 .R 文 件 来 作为 此 数据 框 的 文档 。 代 码 清单 21-7 给 出 了 相应 的 代码 。 


代码 清单 21-7 life.R 文 件 内 容 














etitle 65 岁 时 的 健康 预期 寿命 


edqescription 表 示 65 岁 时 健康 预期 寿命 (预期 在 良好 健康 状况 下 持续 多 少年 ) 的 数据 集 ， 基 于 美国 不 同 州 
在 2007 到 2009 年 的 数据 。 男 性 女性 的 预期 值 分 开 记 录 


@docType data 

@keywords datasets 

@name life 

@usage life 

Qformat 一 个 包含 了 50 行 和 4 个 变量 的 数据 框 。 变 量 分 别 为 











#' \describef{ 
##' \item{region}{ 一 个 有 4 个 类 别 的 因子 型 变量 (North Central (中 北部 ) 、Northeast (东北 部 ) 、 
#， South (南部 ) 、West (西部 ) ) } 
l \item{state}{ 一 个 包含 了 美国 50 个 州 的 因子 型 变量 ， 每 个 州 用 ISO 标 准 的 2 个 字母 进行 表示 } 24 
' ”\item{hlem} {用 年 份 表示 的 男性 健康 预期 寿命 } 
'，  \item{hlef}{ 用 年 份 表示 的 女性 健康 预期 奉命 } 
"]} 
' @source 数 据 \code{hlem} 和 \code{hlef} 从 疾病 预防 和 控制 中 心 \emph{Morbidity and Mortality 
' Weekly Report} 的 \url{http://www.cdc.gov/mmwr/preview/mmwrhtml/mm6228al.htm?s_ 
' cid= mm6228al_w} 网 站 上 获取 
! 变量 \code{region} 从 \code{\link[datasets]{state.region})} 数 据 集中 所 获取 
NULL 
注意 代码 清单 21-7 的 代码 内 容 全 部 都 是 注释 。 下 一 节 ， 你 会 处 理 这 一 节 所 有 .R 文 件 的 注释 来 











生成 包 的 文档 。R 要 求 每 一 个 包 都 有 严格 的 结构 化 文档 。 
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21.3 ”创建 包 的 文档 


每 个 R 包 都 符合 一 套 对 文档 的 强制 方针 。 包 里 每 一 个 函数 都 必须 使 用 LaTeX 来 以 同样 的 风格 
撰写 文档 ; LaTeX 是 一 种 文档 标记 语言 和 排版 系统 。 每 个 函数 都 被 分 别 放置 在 不 同 的 .R 文 件 里 ， 
消 数 对 应 的 文档 ( 用 LaTeX 写 成 ) 则 被 放置 在 一 个 .Rd 文件 中 。.R 和 .Rd 文件 都 是 文本 文件 。 

这 种 方式 有 两 个 限制 ,第 一 , 文档 和 它 所 描述 的 函数 是 分 开放 置 的 。 如 果 你 改变 了 函数 代码 ， 
就 必须 搜索 出 对 应 的 文档 并 且 进 行 改 写 。 第 二 ， 用 户 必 须 学 习 LaTeX。 如 果 你 认为 R 的 学 习 曲 线 
比较 平滑 ， 等 到 使 用 LaTeX 的 时 候 再 说 吧 ! 

roxygen2 包 能 够 极 大 地 简化 文档 的 创建 过 程 。 你 在 每 一 个 .R 文 件 的 头 部 放置 一 段 注释 作为 
对 应 的 文档 。 然 后 ， 使 用 一 种 简单 的 标记 语言 来 创建 文档 。 当 Roxygen2 处 理 文件 的 时 候 ， 以 #， 
开始 的 行 会 被 用 来 自动 地 生成 LaTeX 文 档 ( .Rd 文件 )。 
查看 代码 清单 21-4~ 代 码 清单 21-7 的 文件 内 容 。 表 21-2 描 述 了 每 个 文件 头 部 的 注释 所 使 用 的 标 
签 。 标 签 〈 被 称 为 roclet ) 是 使 用 Roxygen2 创 建 LaTeX 文 档 的 基础 。 


表 21-2 ”Roxygen2 使 用 的 标签 



































































































































标签 描述 
@title 函数 名 
@description 一 行 的 函数 描述 
eqetails 多 行 的 国 数 描述 〈 第 一 行 之 后 要 有 缩 进 ) 
@param 函数 参数 
@export 添加 函数 到 NAMESPACE 
@method generic class 泛 型 $3 方法 的 文档 
@return 函数 返回 的 值 
@author 作者 和 联系 地 址 
@examples 使 用 函数 的 例子 
enote 使 用 函数 的 注意 事项 
@aliases 用 户 能 够 找到 文档 的 额外 的 别名 
@references 函数 所 涉及 的 方法 的 参考 文档 











若 想 看 到 生成 的 文档 是 怎样 的 ， 首 先 确 定 npar 包 已 经 被 读 和 人 ， 然 后 对 每 一 个 函数 发 出 获取 
帮助 的 请 求 ( help(oneway) 、 help(print.oneway) 、help(summary.oneway) 和 
help (plot .oneway) )。help (1ife) 语 句 应 该 提供 了 数据 集 的 信息 。 查 看 help (rgd_roclet) 
获得 这 些 标 签 的 更 多 细节 。 

在 创建 文档 的 时 候 , 另外 一 些 标记 元 素 也 很 用。 标签 \code {text} 用 代码 字体 把 text 打 印 出 
来 ，\1ink {function} 创 建 一 个 指向 本 包 或 者 别处 的 R 函 数 超级 链接 。 最 后 ，itemttext} 创 建 一 个 
分 项 列表 。 这 对 于 描述 函数 返回 的 结果 特别 有 用 。 

有 一 个 文档 任务 是 可 选 的 , 但 它 很 有 用 。 在 目前 的 描述 中 , 当 用 户 安装 npar 包 的 时 候 , ?npar 
并 没有 可 用 的 帮助 文档 出 现 。 用 户 该 如 何 知 道 什 么 函数 是 可 用 的 呢 ? 一 个 办 法 是 输入 
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helpl( 
21-8。 


package="npar")， 不 过 你 可 以 为 文档 增加 另外 一 个 文件 使 之 更 加 简单 ; 详 见 代码 清单 


代码 清单 21-8 nparR 文 件 的 内 容 


#' 非 参 组 间 比 较 的 函数 

#1! 

#' npar 提 供 了 计算 和 可 视 化 组 间 非 参差 异 的 工具 
大 4 

#' edqocType package 

#' ename npar-package 

#' @aliases npar 

NULL 


…， 这 个 文件 必须 在 NULL 后 有 一 个 空白 行 …… 





注意 此 文件 的 最 后 一 行 必须 为 空 。 当 包 被 建立 的 时 候 ，?npaz 的 调用 会 生成 对 包 的 描述 ， 此 
描述 包含 一 个 对 函数 进行 索引 的 可 点 击 链接 。 
最 后 ， 创 建 一 个 名 为 DESCRIPTION 的 文本 文件 用 于 描述 包 。 以 下 是 一 个 样 例 。 


代码 清单 21-9 DESCRIPTION 文件 的 内 容 


Package: npar 

Type: Package 

Title: Nonparametric group comparisons 

Version: 1.0 

Date: 2015-~01-26 

Author: Rob Kabacoff 

Maintainer: Robert Kabacoff <robk@statmethods.net> 

Description: This package assesses group differences using nonparametric 























statistics. Currently a one-way layout is supported. Kruskal-Wallis 
test followed by pairwise Wilcoxon tests are provided. p-values are 
adjusted for multiple comparisons using the p.adjust() function. 
Results are plotted via annotated boxplots. 


LazyData: yes 
License: GPL-3 





DESCRIPTION: 部 分 可 以 包含 很 多 行 , 但 是 第 一 行 之 后 的 行 必 须 缩 进 。LazyData: yes 语 句 
表示 此 包 里 的 数据 集 ( 本 例 中 是 1i fe ) 应 该 在 载 入 包 后 尽快 变 得 可 用 。 如 果 这 个 参数 被 设置 为 24 
no， 用 户 将 不 得 不 用 data (li fe) 来 获取 这 个 数据 集 。 

















最 后 一 行 指出 这 个 包 用 什么 协议 来 进行 分 发 。 常 见 的 协议 类 型 包括 MIT、GPL-2 和 GPL-3。 
可 以 在 http:/www.r-project.org/Licenses 获 取 对 各 个 协议 的 描述 。 当 然 ， 在 创建 你 自己 的 包 时 ,不 
要 用 我 的 名 字 ( 除非 那个 包 非 常 好 )。 

当 你 在 下 一 节 中 生成 最 后 的 npar 包 的 时 候 , roxygen2 包 会 被 用 到 。 想 学 习 更 多 的 roxygen2 


知识 ， 


见 Hadley Wickham 在 http://mng.bz/K26J 的 描述 。 


21.4 建立 包 
终于 到 了 建立 包 的 时 候 。( 真 的 , 我 保证 。) 开 发 者 创建 包 的 圣经 是 R 核 心 开 发 团队 的 “Writing 
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R Extensions” ( http://cran.r-project.org/doc/manuals/R-exts.pdf )。Friedrich Leishch 也 提供 了 一 个 创 
建 包 的 优秀 指南 (http:/mng.bz/Ks84 )。 

本 节 中 , 你 会 按照 一 个 流畅 的 过 程 来 创建 包 。 特别 是 , 你 会 用 到 Hadley Wickham 的 roxygen2 
包 来 简化 创建 文档 的 过 程 。 我 是 在 Windows 机 器 上 创建 包 的 ， 不 过 这 些 步 又 同样 适用 于 Mac 和 
Linux 平 台 。 

(1) 安装 必要 的 工具 。 用 install.packages ("roxygen2"，depend=TRUE) 来 下 载 和 安装 
roxygen2 包 。 如 果 使 用 的 是 Windows 平 台 , 你 还 需要 安装 Rtools.exe ( https://cran.r-project.org/bin/ 
windows/Rtools ) 和 MiKTeX ( http://miktex.org )。 如 果 使 用 的 是 Mac ， 则 需要 安装 MacTeX 
( http://www.tug.org/mactex )。Rtools、MiKTeX 和 MacTeX 都 不 是 包 而 是 软件 。 因 此 ， 你 需要 在 R 
的 外 部 安装 它们 。 

(2) 配置 文件 夹 。 在 你 的 home 目 录 中 (启动 R 时 的 当前 工作 目录 )， 创建 一 个 叫 作 npar 的 子 文 
件 来。 在 这 个 文件 夹 中 ,创建 两 个 子 文件 夹 ,分别 为 R 和 data ( 见 图 21-4 )。 把 DESCRIPTION 文件 
放 在 npar 文 件 夹 里 ， 并 把 源 代码 文件 (oneway.R、print.R、summary.R、plot.R、life.R 和 和 npar.R ) 
放 在 子 文件 夹 R 里 。 把 life.rda 文 件 放 在 子 文件 夹 data 里 。 配 置 好 的 目录 应 该 如 图 21-4 所 示 。 













































































DESCRIPTION 


oneway.R life.rda 
print.R 

summary.R 

plot.R 

npar.R 

life.R 


图 21-4 ”npar 包 初始 的 文件 夹 结构 
从 现在 开始 ， 假 设 你 处 于 R 的 home 目 录 中 。 如 果 不 是 ， 要 输入 包 的 完整 路 径 ( 比如 
c:/applications/npar )， 而 不 要 只 输入 包 的 名 字 ( npar )。 
(3) 生成 文档 。 加 载 roxygen2 包 ， 然 后 使 用 roxygenize () 函数 处 理 每 一 个 代码 文件 头 部 的 
文档 : 


> library (Oxygen2 ) 





> oxygenize("npar") 


Updating namespace directives 
Writing oneway .Rd 
Writing plot.oneway .Rd 
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Writing Print.oneway .Rd 
Writing summary .oneway .Rd 
Writing life.Rd 

Writing npar-package.Rd 


roxygenize() 哨 数 创建 了 一 个 新 的 子 文 件 夹 man » 这 个 文件 夹 内 部 有 与 每 一 个 函数 对 应 
的 .Rd 文档 文件 。 每 一 个 代码 文件 头 部 的 注释 标记 都 被 用 于 创建 这 些 文档 文件 。 此 外 ， 
roxygenize() 对 DESCRIPTION 文件 添加 了 信息 ， 也 创建 了 一 个 NAMESPACE 文 件 。 为 npazr 创 
建 的 NAMESPACE 文 件 如 下 所 示 。 











代码 清单 21-10 NAMESPACE 文 件 的 内 容 


S3method (plot, oneway) 
S3method (print, oneway) 
S3method (summary, oneway ) 
export (oneway) 


NAMESPACE 文 件 控制 函数 的 可 视 性 。( 是 所 有 函数 都 直接 和 户 ， 还 是 有 些 函 数 在 内 
部 被 其 他 函数 使 用 ? ) 在 本 例 中 , 所 有 的 函数 都 是 直接 对 用 户 可 用 的 。 想 学 习 更 多 关于 命名 空间 
(namespace ) 的 知识 ， 可 以 查看 http://adv-r.had.co.nz/Namespaces.html。 

图 21-5 展 示 了 新 的 文件 夹 结构 。 























DESCRIPTION 
NAMESPACE 

oneway.Rd oneway.R life.rda 
print.oneway.Rd print.R 
summary.oneway.Rd summary.R 
plot.oneway.Rd plot.R 
npar- package.Rd npar.R 
life.Rd life.R 





图 21-5 ”运行 roxygenize () 函数 后 npar 包 的 文件 夹 结构 
(4) 建立 包 。 用 以 下 系统 命令 建立 包 : 


> system("R CMD build npar") 
. informational messages omitted ... 


这 上段 代码 在 当前 工作 目录 中 创建 了 npar 1.0.tar.gz 文 件 。 文 件 名 中 的 版 本 号 是 从 
DESCRIPTION 文件 中 提取 的 。 现 在 这 个 包 的 格式 可 以 分 发 给 其 他 用 户 。 
若 要 为 Windows 平 台 创建 二 进 制 ,zip 文件 ， 可 以 运行 以 下 代码 : 
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> System("Rcmdq INSTALL --build npar") 

. informational messages omitted ... 
packaged installation of 'npar' as npar_1.0.zip 
* DONE (npar) 


这 段 代 码 在 当前 工作 目录 中 创建 了 npar_1.0.zip 文 件 。 注意， 只 有 在 Windows 平 台 下 工作 才能 用 这 
个 方法 创建 Windows 的 二 进 制 文 件 。 如 果 你 不 在 Windows 机 器 下 运行 R， 但 是 想 创 建 一 个 适用 于 
Windows 的 二 进 制 包 ， 可 以 使 用 http:/win-builderr-project.org/ 提 供 的 在 线 服务 。 

(5) 检查 包 (可 选 )。 要 在 包 上 运行 全 部 的 一 致 性 检查 ， 可 以 运行 以 下 语句 : 

system("R CMD check npar") 

该 语句 在 当前 工作 目录 中 创建 了 一 个 名 为 nparRcheck 的 文件 夹 。 这 个 文件 夹 里 有 个 名 为 
00.check.log 的 文件 ,描述 了 检查 的 结果 。 如 果 你 想 分 发 你 的 包 到 CRAN 上 ， 检 查 结果 必须 是 没有 
任何 错误 或 警告 的 。 

这 个 文件 夹 也 包含 一 个 名 为 npar-EX.R 的 文件 ， 其 内 容 是 所 有 文档 列 出 的 示例 代码 。 
npar-EX.out 的 内 容 是 运行 示例 代码 所 得 到 的 文字 输出 。 如 果 示 例 代 码 创建 了 图 像 ( 这 个 案例 是 创 
建 了 图 像 的 )， 则 它们 被 放置 在 npar-Ex.pdf 中 。 

(6) 创建 一 个 PDF 手册 (可 选 )。 运 行 语句 : 

system("R CMD Rd2pdf npar") 


创建 一 本 类 似 于 你 在 CRAN 上 看 到 的 PDF 参考 手册 。 如 果 你 完成 了 步骤 (35) ， 那 么 已 经 在 
npar.Rcheck 文 件 夹 中 拥有 此 文档 了 。 
(7) 本 地 安装 包 (可 选 )。 运 行 : 















































system("R CMD INSTALL npar") 
在 你 的 机 器 上 安装 这 个 包 ， 并 使 其 可 以 使 用 。 男 一 个 本 地 安装 包 的 方法 是 使 用 : 


install.packages (paste (getwd(),"/npar_1.0.tar.gz",sep=""), 
repos=NULL, type="source") 


你 可 以 输入 1ibrary () 来 得 知 包 已 经 完成 了 安装 。 输 入 library (npar) 之 后 ， 包 就 已 经 可 以 使 
用 了 。 

在 开发 周期 中 ， 你 也 许 想 从 本 地 机 器 删除 一 个 包 从 而 能 够 安装 一 个 新 的 版 本 。 这 种 情况 下 ， 
用 代码 : 


detach (package:npar, unload=TRUE) 
remove.packages ("npar") 


来 得 到 一 个 全 新 的 开始 。 
(8) 上 传 包 到 CRAN ( 可 选 )。 如 果 你 想 把 包 添 加 到 CRAN 库 从 而 分 享 给 别人 ， 只 需 进 行 以 下 
三 步 。 
口 阅读 CRAN 库 的 政策 ( http://cran.r-project.org/web/packages/policies.html )。 
口 确保 包 通 过 了 步骤 (5) 的 所 有 检查 ， 没 有 任何 错误 或 警告 。 不 然 包 会 被 拒绝 接受 。 
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口 提交 包 。 如 果 要 用 一 个 网 页 表单 来 提交 ， 可 以 使 用 http://cran.r-project.org/submit.html 中 用 
于 提交 的 表单 。 你 会 收 到 一 个 自动 确认 的 电子 邮件 ， 你 需要 接受 它 。 

用 FTP 来 提交 的 话 ， 使 用 匿名 FTP 来 上 传 packageName_version.tar.gz 文 件 到 ftp:/cran.r-Project. 
org/incoming。 然后 从 包 所 列 出 的 维护 者 邮件 中 发 送 一 个 纯 文本 电子 邮件 到 CRAN@R-project.org。 
主题 为 “CRAN submission PACKAGE VERSION”， 去 掉 双 引号 ， 其 中 PACKAGE 和 VERSION 分 
别 是 包 的 名 字 和 版 本 号 。 对 于 新 的 提交 ， 在 邮件 正文 中 确认 你 已 经 阅读 和 同意 CRAN 的 政策 。 

不 过 请 不 要 把 你 刚刚 创建 的 npar 包 上 传 到 CRAN! 你 现在 拥有 了 创建 自己 的 包 的 工具 。 
































21.5 ”深入 学 习 


本 章 中 ,创建 npar 包 所 用 到 的 所 有 代码 都 是 R 人 代码。 实际 上 ， 大 部 分 包 所 包含 的 代码 都 是 
完全 用 R 写 成 的 。 不 过 你 也 可 以 在 R 中 调用 编译 后 的 C、C++、Fortran 和 Java 代 码 。 引 入 外 来 代码 
的 典型 情况 是 希望 以 此 来 提升 运行 速度 ,或 者 作者 想 在 R 代 码 中 使 用 现 有 的 外 部 软件 库 。 

有 很 多 种 方法 可 以 引入 编译 后 的 外 部 代码 。 有 用 的 函数 包含 .Cc () 、.Fortran()、.External () 
和 .call() 等 。 还 有 一 些 包 的 创造 是 为 了 简化 流程 , 比如 inline(C、C++、Fortran )、Rcpp( C++) 
和 ruUava (Java )。 

为 R 包 添加 外 部 的 编译 后 代码 超出 了 本 书 的 讨论 范围 。“ Wiriting R Extensions ”手册 
( http://cran.r-project.org/doc/manuals/R-exts.html ) 以 及 函数 和 包 的 帮助 文件 应 该 能 给 你 足够 的 细 
节 。 如 果 你 遇 到 困难 的 话 ，Stack Overflow ( http://stackoverflow.com ) 是 一 个 提问 的 好 地 方 。 




































































21.6 小结 


对 于 组 织 常用 函数 、 创 建 完整 程序 以 及 分 享 结果 给 他 人 , R 包 是 一 个 很 好 的 方法 。 在 本 音 中 ， 
你 创建 了 一 个 完整 的 R 包 ， 可 以 用 于 进行 分 组 之 间 的 非 参 比较 。 这 些 面向 对 象 的 技术 可 以 用 于 很 
多 其 他 的 数据 管理 和 数据 分 析 任务 。 尽 管 包 一 开始 看 上 去 很 复杂 ， 但 是 如 果 你 明白 了 全 部 步骤 ， 
它们 就 会 变 得 很 简单 。 现 在 开始 着 手 吧 ! 记得 要 从 中 获得 乐趣 。 
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本 章 内 容 

口 在 网 上 发 布 结果 

口 把 R 的 结果 合并 到 Microsoft Word 或 Open Document 报 告 中 
口 创建 内 容 随 数据 改变 的 动态 报告 

口 用 R、Markdown 和 LaTeX 创 建 出 版 水 平 的 文档 











欢迎 来 到 最 后 一 章 ! 你 已 经 获取 并 清洗 了 数据 ,描述 其 性 质 ， 对 数据 间 关 系 进行 建 模 ， 还 对 
结果 进行 了 可 视 化 。 下 一 个 步骤 是 : 

A 放松 ， 或 许 还 可 以 去 一 趟 迪士尼 乐园 ; 
B 与 其 他 人 交流 成 果 。 

如 果 你 选择 A， 请 带 上 我 。 如 果 你 选择 B ， 欢 迎 来 到 现实 世界 。 

最 后 一 项 统计 分 析 或 者 绘图 的 完成 并 不 意味 着 研究 过 程 的 完成 。 你 总 要 与 他 人 交流 研究 结 
果 。 这 意味 着 把 分 析 整 理 到 某 种 报告 里 面 。 

有 三 种 常见 的 创建 报告 情景 。 

第 一 种 : 创建 一 个 包含 代码 和 结果 的 报告 ， 便 于 记 住 六 个 月 前 做 过 的 事情 。 如 果 要 重 做 之 
前 的 事情 ， 从 单个 完整 的 文档 做 起 比 从 多 个 相关 的 文档 做 起 要 更 加 容易 。 

第 二 种 : 为 老师 、 主 管 、 客 户 、 政 府 代 表 、 网 络 观众 或 者 杂志 编辑 创建 一 份 报告 。 你 需要 注 
意 清晰 性 和 吸引 性 ， 而 且 这 份 报告 可 能 只 需要 创建 一 次 。 

第 三 种 : 为 日 常 需 求 创 建 一 份 特定 类 型 的 报告 。 这 有 可 能 是 关于 产品 或 者 资源 使 用 量 的 每 月 
报告 ， 可 能 是 关于 金融 的 每 周 分 析 , 也 可 能 是 关于 网 络 流量 的 每 小 时 更 新 一 次 的 报告 。 每 一 种 情 
况 中 ， 数 据 会 有 所 变化 ， 但 是 分 析 过 程 和 报告 结构 保持 不 变 。 

把 R 的 输出 合并 到 报告 的 一 种 方法 是 : 进行 分 析 ， 复 制 和 粘贴 每 一 个 图 表 到 一 个 字 处 理 文 档 
中 ， 接 着 重新 整理 结果 格式 。 这 个 方法 一 般 来 说 非常 耗 时 、 低 效 ， 让 人 心烦 意 乱 。 尽 管 R 创 建 的 
图 片 很 现代 , 但 它 的 文字 输出 却 很 复古 一 一 由 等 宽 字 体 组 成 并 用 空格 实现 列 对 齐 的 表格 。 如 果 数 
据 有 所 变化 的 话 ， 你 不 得 不 重复 整个 过 程 ! 

考虑 到 这 些 限 制 , 你 可 能 觉得 R 不 是 很 合适 。 不 要 忍 惧 。( 好 吧 , 可 以 有 一 点 点 恐惧 ,毕竟 这 
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是 重要 的 生存 机 制 。 ) R 提 供 了 很 多 优雅 的 解决 方式 供 我 们 把 R 代 码 和 结果 般 入 报告 当中 。 此 外 ， 
数据 也 可 以 和 报告 联系 起 来 ,使 报告 可 以 随 着 数据 改变 。 这 些 动态 报告 可 以 用 以 下 格式 保存 : 
口 网 页 

口 Microsoft Word 文 档 

口 Open Document 格 式 文档 

口 出 版 水 平 的 PDF 或 者 PostScript 文 档 

举 个 例子 ， 假 设 你 在 使 用 回归 分 析 来 研究 一 份 女性 样本 中 体重 和 身高 的 关系 。R 人 允许 你 提取 
) 函数 的 等 宽 输 出 : 


> lm(weight ~ height, data=women) 











lm 


加 唤 蒜 - 
lm(formula = weight ~ height, data = women) 


Residuals: 
Min 10 Median 30 Max 
333 二 1 13933 50.3833 00574L1y 3:51L6Y 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) -87.51667 5.93694 1074 了 11,71le=09 到 
height 3.45000 0.09114 37.85 1.09e-14 *** 
SIONIf COs: Ow RR OwO0L Thm QOL Er OOBE Tar OE 
Residual standard error: 1.525 on 13 degrees of freedom 
Multiple R-squared: 0.991, Adjusted R-squared: 0.9903 


F-statistic: 1433 on 1 angd 13 DF, p-value: 1.091e-14 


然后 把 这 些 输 出 转换 成 类 似 图 22-1 的 网 页 。 你 会 在 本 章 中 学 到 如 何 实现 这 一 效果 。 





| 加 | % 
@ 馈 ] cAUserAMy Docume 只 - | 和 Regression Report 








: 
Regression Report 

Linear regression Was used to model the relationship between weights and heightina | 
sample of 15 women. The equation weight = -87.5167 + 3.45 * height accounted for 
0.99% of the variance in weights, The ANOVA table is given below. 


Estimate Std, Error t value Pr(> |t) 
(Intercept) -87.5167 5.9369 -14.74 0.0000 
height 3.4500 0.0911 37.86 0.0000 


| The regression is plotted in the following figure. 





weight 


| neignt 





图 22-1 保存 为 网 页 的 回归 分 析 








动态 文档 和 可 重复 性 研究 
在 学 术 界 , 正在 兴起 一 场 支持 可 重复 性 研究 的 强大 运动 。 可 重复 性 研究 的 目标 是 , 通过 在 
论文 中 附 上 数据 和 所 需 的 软件 代码 , 更 方便 地 复 现 论文 所 指出 的 科学 成 果 。 这 使 得 读者 能 够 更 
加 方便 地 自行 验证 论文 的 结果 , 而 且 有 可 能 在 自己 的 文章 里 更 加 直接 地 利用 其 成 果 。 本章 所 描 
述 的 技术 ， 包 括 在 文档 中 嵌入 数据 和 R 源 代码 ， 都 对 可 重复 性 研究 有 直接 的 帮助 。 


22.1 用 模版 生成 报告 


本 章 的 大 部 分 内 容 都 用 模版 的 方式 来 生成 报告 。 报告 从 一 个 模版 文件 开始 创建 。 这 份 模版 包 
括 了 报告 文字 、 格 式 化 语法 和 R 代 码 块 。 

读 取 模 版 文件 ， 运 行 R 代 码 ， 应 用 格式 化 指令 ， 生 成 一 个 报告 。 如 何在 报告 中 加 上 R 的 输出 
由 选项 来 控制 。 图 22-2 展 示 了 一 个 使 用 R Markdown 模 版 生成 网 页 的 简单 例子 。 

















example.himl | Report 


Here is some data. 


library(rmarkdown) 
render(example.Rmd, "html_document") 


7 
实 6 





Plots 


Here is a plot 


example.Rmd 


# Report 
Here is some data. 
wr 


head(women) 





70 


## Plots 

Here is a plot. 

{rfig.width=4, fig.height=4} 
with(women, plot(weight, height)) 


height 
66 


62 





58 
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weight 








图 22-2 ”从 包含 Markdown 语 法 、 报 告 文字 和 R 代 码 块 的 文本 文件 创建 网 页 


模版 文件 ( example.Rmd ) 是 一 个 纯 文本 文档 ， 包 含 以 下 三 个 部 分 。 
口 报告 文字 : 所 有 解释 性 的 语句 和 文字 。 在 本 例 中 ， 报 告 文字 是 Report、Here is some data、 
Plots 和 Here is a plot。 
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口 格式 化 语法 ( formatting syntax ): 控制 报告 格式 化 方式 的 标签 。 在 这 个 文件 中 , Markdown 
标签 被 用 于 对 输出 进行 格式 化 。Markdown 是 一 个 简单 的 标记 式 语言 ， 它 可 以 把 纯 文 本 转 
化 为 有 合法 结构 的 HTMIL 或 者 XHTML。 第 一 段 的 # 洗 不 是 指 注释 。# 产 生 一 级 标题 ，## 产 
生 二 级 标题 ， 以 此 类 推 。 
口 R 代 码 : 要 运行 的 R 语 句 。 在 R Markdown 文 档 中 ，R 代 码 块 被 、、`{r} 和 ``、、 所 包围 。 第 
一 个 代码 块 把 数据 集 的 前 6 行 显示 出 来 , 第 二 个 代码 块 创建 了 一 个 散 点 图 。 在 这 个 例子 中 ， 
代码 和 运行 的 结果 都 被 输出 到 了 报告 中 ， 不 过 对 于 每 个 代码 块 的 输出 ， 你 都 可 以 分 别 用 
不 同 的 选项 来 控制 。 
这 个 模版 文件 被 作为 参数 传递 到 rmarkdown 包 的 render () 函数 中 ， 然 后 创建 出 一 个 网 页 文 
件 example.html。 此 网 页 包含 了 报告 文字 和 了 R 结 果 。 
本 章 的 例子 基于 描述 性 统计 量 、 回 归 和 方差 分 析 问 题 等 它们 都 不 代表 完整 的 数据 分 析 流程 。 
本 章 的 目标 是 学 习 如 何 把 R 的 结果 合并 到 各 种 不 同类 型 的 报告 当中 。 你 可 以 跳跃 地 阅读 本 章 ， 只 
阅读 你 最 关注 的 部 分 。 
根据 你 起 步 的 模版 文件 和 用 来 处 理 模 版 的 函数 ， 可 以 创建 出 不 同 的 报告 格式 (HTML 网 页 文 
件 、Microsoft Word 文 档 、OpenOffice Writer 文 档 、PDF 报 告 、 文 章 和 图 书 )。 它 们 被 称 为 动态 报 
告 ， 动 态 之 处 在 于 改变 数据 和 重新 处 理 模 版 文件 的 话 会 生成 一 份 新 的 报告 。 
本 章 中 , 你 会 用 到 四 种 类 型 的 模版 : R Markdown 模 版 、ODT 模 版 、DOCX 模 版 和 LaTeX 模 版 。 
R Markdown 模 版 能 够 用 来 生成 HTML、PDF 和 Microsoft Word 文 档 。ODT 和 DOCX 模 版 分 别 用 于 
生成 Open Document 和 Microsoft Word 文 档 。LaTeX 模 版 则 能 生成 出 版 水 平 的 PDF 文档 , 包括 报告 、 
文章 和 图 书 。 让 我 们 逐一 进行 学 习 。 
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在 本 节 中 ， 你 会 使 用 rmarkdown 包 来 从 Markdown 格 式 和 RR 代码 中 创建 文档 。 在 处 理 文 档 的 
时 候 ， 运 行 R 人 代码， 格式 化 输出 ， 然 后 把 输出 冤 入 到 最 后 生成 的 文档 当中 。 你 可 以 用 这 个 方式 来 
生成 HIML 、Word 或 PDF 文件 ， 步 又 如 下 。 

(1) 安装 rmarkdown 包 (install.packages ("rmarkdown") )。 这 个 步骤 会 把 很 多 其 他 的 
包 也 安装 进来 , 包括 knitr 包 。 如 果 你 在 使 用 最 新 版 RStudio, 你 可 以 跳 过 这 一 步 ， 因为 你 已 经 有 
必要 的 包 了 。 

(2) 安装 xtable 包 (install.packages ("xtable") )。 这 个 包 中 的 xtable() 函数 用 美观 
的 方式 格式 化 报告 中 的 数据 框 和 天 阵 。xtaple () 也 可 以 对 lm() 、glm() 、aov() 、table()、 
ts() 和 coxph () 返 回 的 对 象 进行 格式 化 。 载 人 这 个 包 后 ,可 以 用 methods (xtable) 来 查看 它 能 
格式 化 的 所 有 对 象 列 表 。 

(3) 安装 Pandoc ( http://johnmacfarlane.net/pandoc/index.html )。Pandoc 是 一 个 支持 Windows、 
Mac OS X 和 Linux 的 免费 软件 。 它 可 以 把 一 种 标记 格式 的 文件 转换 成 另外 一 种 标记 格式 。 同 样 ， 
RStudio 用 户 可 以 跳 过 这 一 步 。 
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(4) 如 果 想 生成 PDF 文档 ， 需 要 安装 一 套 LaTeX 编 译 回 。 一 套 LaTeX 编 译 器 能 够 把 一 个 LaTeX 
文件 转换 成 一 个 高 质量 排版 的 PDF 文档 。 我 推荐 Windows 用 户 安装 MiKTeX ( http://miktex.org/ )， 
Mac 用 户 安 装 MacTeX (https:/tug.org/mactex/ )，Linux 用 户 安 装 TeXLive ( https://tug.org/texlive/ )。 

软件 都 安装 好 之 后 ， 就 可 以 进行 下 一 步 了 。 

为 了 用 Markdown 语 法 把 R 的 输出 〈 值 、 表 格 、 图 形 ) 合并 到 一 个 文档 中 ， 你 需要 首先 创建 一 
个 包含 以 下 内 容 的 文本 文档 : 

口 报告 文字 
口 Markdown 语 法 
口 R 代 码 块 〈 用 分 隔 符 包 围 起 来 的 R 代 码 ) 

按照 惯例 ， 这 种 文本 文件 使 用 扩展 名 .Rmd。 

在 代码 清单 22-1 中 展示 了 一 个 示例 文件 (名 为 women.Rmd )。 为 了 生成 一 个 HTML 文 档 ， 对 
此 文件 运行 以 下 语句 : 


library (rmarkdown) 
render ("women.Rmd", "html_document") 


结果 如 图 22-1 所 示 。 
代码 清单 22-1 women.Rmd: 有 般 信 R 代 码 的 Markdown 模 板 


# Regression Report 
Markdown 语 法 


‘~{r echo=FALSE, results='hide'} 
n <- nrow (women) 
fit <- lm(weight ~ heignhnt, data=women) R 代 码 块 
sfit <- summary (fit) 
b <- coefficients (fit) 























行内 R 代 码 
Linear regression was used to model the relationship between 
weights and height in a sample of ‘r n. women. The equation 
**WELIGNnt = rT BULL + “rbL2]]™ * Height** 
accounted for ‘r round(sfits$r.squared,2).% of the variance 
in weights. The ANOVA table is given below. 


‘~{r echo=FALSE, results='asis'} 


es 用 xtable 格 
CS 区 Cnc iene EL SE) | 式 化 输出 结果 
print (xtable(sfit), type="html", html.table.attributes="border=0") 


The regression is plotted in the following figure. 


‘~{r echo=FALSE, fig.width=5, fig.height=4} 
library (ggplot2) 
ggplot (data=women, aes (x=height, y=weight)) + 
geom point() + geom smooth (method="1lm") 
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报告 的 开头 是 一 个 一 级 标题 @。 这 行 代 码 表示 “Regression Report” 应 该 用 更 大 的 粗 体 字体 
打印 出 来 。 表 22-1 给 出 了 其 他 一 些 Markdown 语 法 的 例子 。 


表 22-1 Markdown 代 码 和 输出 结果 








Markdown 语 法 HTML 输 出 结果 
# Heading 1 <hl>Heading 1</h1> 
## Heading 2 <h2>Heading 2</h2> 
间 间 间 ### Heading 6 <h6>Heading 2</h6> 
文字 之 间 一 行 或 多 行 的 空白 行 把 文字 分 割 成 段落 
行 尾 两 个 或 多 个 空格 添加 一 个 换行 符 
*I mean it* <em>I mean it</em> 
**I really mean it** <strong>I really mean it</strong> 
* item 1 <ul> 
* item 2 <1i> item 1 </1i> 


<1i> item 2 </1i> 


</ul> 
1. item 1 <ol> 
2. item 2 <1i> item 1 </1i> 





<1i> item 2 </1i> 


</ol1> 
[Google] (http://go0gle.com) <a href="http://google.com">Google</a> 
![My text] (path to image) <img src="path to image", alt="My text"> 








接 下 来 是 R 代 码 块 。Markdown 文 档 中 的 R 代码 用 `、`{r options} 和 `、、 分割 @。 处 理 文 
件 的 时 候 ， 会 运行 R 代 码 并 且 插 入 结果 。 表 22-2 描 述 了 代码 块 的 选项 。 


表 22-2 ”代码 块 选项 


选 项 描述 


























echo 是 否 在 输出 中 包含 R 源 代码 (TRUE 或 FALSE) 
results 是 否 输出 原生 结果 (asis 或 hide) 

warning 是 否 在 输出 中 包含 警告 (TRUE 或 FALSE ) 
message 是 否 在 输出 中 包含 参考 的 信息 (TRUE 或 FALSE) 
error 是 否 在 输出 中 包含 错误 信息 (TRUE 或 FALSE) 
fig.width 图 片 宽度 (英寸 ) 

fig.height 图 片 高 度 〈 英 寸 ) 














简单 的 R 输 入 〈 数 字 或 者 字符 串 ) 也 可 以 直接 放置 在 报告 文字 中 。 行 内 R 代 码 允 许 你 自 定义 
每 一 句 的 一 些 文字 。 行内 代码 放置 在 `\r 和 标签 之 间 合 。 在 以 上 关于 回归 的 例子 中 ， 样 本 量 、 
预测 公式 和 R-squared 值 都 被 虞 入 第 一 段 中 。 

最 后 ,你 可 以 用 xtable() 函数 来 格式 化 回归 结果 他。 语句 options (xtable.comment= 
FALSE) 省 略 了 多 余 的 信息 。print () 函数 中 的 type="html" 选 项 把 xtable 对 象 输出 为 一 个 
HTML 表 格 。 默 认 设置 中 ， 这 个 表格 有 个 无 趣 的 1 像素 边界 ， 这 里 通过 添加 html .table. 
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attributes="bordqer=0" 将 其 移 除 。 额 外 的 格式 化 选项 参见 help (print .xtable)。 
为 了 把 这 个 文件 输出 成 PDF 文档 ， 你 只 需要 改变 一 处 地 方 。 把 代码 : 
print (xtable (sfit), type="htmil", html.table.attripbutes="border=0") 

替换 成 : 
print (xtable (sfit), type="latex") 

然后 用 以 下 代码 来 处 理 文件 ， 从 而 得 到 一 个 格式 美观 的 PDF 文 档 : 


library (rmarkdown) 
render ("women.Rmd", "pdf_document") 


不 地 地 是 ，xtable () 函数 对 Word 文 档 失 效 了 。 你 需要 一 点 点 额外 的 创造 性 来 把 统计 结果 输 
出 成 美观 的 文档 。 一 个 可 能 的 解决 方式 是 使 用 knitr 包 里 的 kable () 来 取代 xtable ()。 它 能 
一 种 简单 和 吸引 人 的 方式 把 矩阵 和 数据 框 转化 出 来 。 

把 以 下 代码 : 

library (xtable) 


options (xtable.comment=FALSE) 
print (xtable(sfit), type="html", html.table.attributes="border=0") 


替换 成 : 


library (knitr) 
kable(sfit$coefficients) 


然后 用 以 下 代码 来 转化 文档 : 


library (rmarkdown) 
render ("women.Rmd", "word_document") 


输出 文件 是 一 个 吸引 人 的 Word 文 档 , 你 可 以 使 用 Word 软 件 对 它 进行 编辑 。 请 注意 , 你 需要 把 sfit 
对 象 替 换 成 sfitscoefficients。xtable() 国 数 可 以 处 理 lm() 对 象 ， 但 是 kable () 函数 只 能 
处 理 和 矩阵 和 数据 框 ,。 因此, 你 不 得 不 从 更 加 复杂 的 对 象 提取 想 要 打印 的 部 分 。 可 查看 help (kable) 
来 获得 更 多 细节 。 
























































使 用 RStudio 来 创建 和 处 理 R Markdown 文 档 
在 本 书 中 ,我 尽量 把 内 容 和 R 的 接口 独立 起 来 。 每 一 项 技术 都 能 够 在 基本 的 R 终 端 中 工作 ， 
但 是 实际 上 还 有 一 些 其 他 选择 ， 包 括 RStudio ( 见 附录 A )。RStudio 使 得 转换 Markdown 文 档 特 
别 容易 。 
如 果 从 GUI 菜单 中 选择 “File” 一 “NewEile” 一 “RMarkdown”， 你 会 见 到 如 图 所 示 的 对 
话 框 。 
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New R Markdown 


[YY Document | Title: Ts 
训 Presentation Author: Robert Kabacoff 
BD Shiny Default Output Format: 


From Template 9 HTML 
Recommended format for authoring (you can switch to PDF 
or Word output anytime). 


PDF 
PDF output requires TeX (MiKTeX on Windows, MacTeX 
2013+ on OS X TeX Live 2013+ on Linux). 


Word 


Previewing Word documents requires an installation of MS 
Word (or Libre/Open Office on Linux). 


OK Cancel 


RStudio 中 创建 新 R Markdown 文 档 的 对 话 框 
选择 你 想 生成 的 报告 格式 ，RStudio 会 为 你 创建 一 个 骨架 文件 。 用 你 的 文字 和 代码 进行 编 
辑 ， 然 后 从 Knit 下 拉 菜 单 中 选择 render 选 项 。 完 成 ! 


© Untitiedl * 一 


BB YA ?mHM - -#pun | SH 国 Chunis" 
title: "Unt 局 Knit HTML 

author: "RO 吃 

date: "Mond 一 RN PO r 
output: htm WW) KnitWord 


View in Pane 


mow 


This is an | v ViewinWindow 上 上. Markdown is a simple formatting 
syntax for 人 F, and MS Word documents. For more 
details on using R Markdown see <http://rmarkdown.rstudio.com>. 

10 When you click the *s*knit** button a document will be generated that 
includes both content as well as the output of any embedded R code 
chunks within the document. You can embed an R code chunk like this: 

7 

13 summary(cars) 

16 You can also embed plots, for examp]e: 

18" {r, echo=FALSE} 

19 plot(cars) 

20… 2 习 

而 (Top Leven : R Markdown < 


从 R Markdown 文 档 创建 HTML、PDF 或 Word 报 告 的 下 拉 菜 单 
RStudio 有 很 多 对 程序 员 很 有 用 的 功能 。 到 现在 为 止 它 是 我 最 喜欢 的 运行 R 的 方式 。 a 
Markdown 语 法 可 以 方便 地 快速 创建 简单 的 文件 ,你 可 以 访问 其 主页 http://daringfireball.net/ 
projects/markdown/ 和 rmarkdown 文 档 页 面 http://rmarkdown.rstudio.com/ 来 学 习 Markdown。 如 果 
想 创建 复杂 的 文档 , 比如 说 出 版 水 平 的 文章 和 图 书 , 你 可 能 需要 使 用 LaTeX 作 为 你 的 标记 语言 。 
在 下 一 节 ， 你 会 使 用 LaTeX 和 knitr 包 来 创建 高 质量 排版 的 文档 。 
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22.3 用 民 和 LaTeX 创建 动态 报告 


LaTex 是 一 个 高 质量 的 文档 排版 准备 系统 , 在 Windows、Mac 和 Linux 平 台 上 都 可 以 免费 使 用 。 
LaTeX 让 你 能 够 创建 漂亮 、 复 杂 、 有 多 部 分 结构 的 文档 ; 只 改变 几 行 代码 ， 就 可 以 把 一 个 种 类 的 
文档 〈 比如 文章 ) 转换 成 为 另 一 种 类 的 文档 〈 比如 报告 )。 它 是 一 个 极其 强大 的 软件 ， 因 此 它 的 
学 习 曲 线 非常 陡峭 。 

如 果 你 对 LaTeX 不 熟悉 ， 在 阅读 以 下 内 容 之 前 ， 可 以 先 阅读 一 下 : Tobias Oetiker 等 人 撰写 的 
文档 “The Not So Short Introduction to LaTeX 2e”( http://mng.bz/45vP )， 或 者 印度 TeX 用 户 组 的 指 
南 “LaTeX Tutorials: A Primer”( http://mng.bz/2c0O )。 这 门 编程 语言 绝对 值得 学 习 ， 不 过 用 户 需 
要 一 些 时 间 和 耐性 来 掌握 它 。 一 旦 你 熟悉 了 LaTeX， 创 建 动态 报告 就 是 一 个 很 直接 的 过 程 。 

knittr 包 允许 你 使 用 类 似 于 上 一 节 创 建 网 页 的 技术 ， 在 LaTeX 文 档 中 内 藤 了 代码 。 如 果 你 安 
装 了 rmarkdown 或 者 在 使 用 RStudio ， 就 已 经 拥有 了 knitr。 如 果 没 有 ， 请 现在 安装 它 
(install.pcakages ("knitr") )。 此 外 ， 你 需要 一 个 LaTeX 编 译 器 ， 请 查阅 22.2 节 了 解 细节 。 

本 节 中 ， 你 会 创建 一 份 报 告 ， 这 份 报告 使 用 multcomp 包 里 的 数据 ， 描 述 病人 对 各 种 药物 的 
反应 。 如 果 你 在 第 9 章 没 有 安装 该 包 ， 请 先 运行 instal1.packages ("multcomp") 再 接着 阅读 
以 下 内 容 。 

为 了 使 用 R 和 LaTeX 创 建 一 份 报 告 , 需要 首先 新 建 一 个 文本 文档 (文件 扩展 名 一 般 为 .Rnw )。 
这 个 文本 文档 包含 报告 文字 、LaTeX 标 记 代 码 和 R 代 码 块 。 代 码 清单 22-2 给 出 了 一 个 例子 。 每 个 
R 代 码 块 以 分 隔 符 <<options>>= 开 始 ， 以 分 隔 符 @ 结 束 。 表 22-3 列 出 了 代码 块 的 选项 。 行 内 R 
代码 可 用 \sexpr{R code} 来 包含 。 当 R 代 码 被 运行 的 时 候 ， 数 字 或 者 字符 串 会 被 插入 文字 的 
那个 地 方 。 


代码 清单 22-2 ”drugs.Rnw: 含有 瞬 入 R 代 码 的 样本 LaTeX 模 板 
Ndqocumentc1lass [11pt]{articlel} 
\title{Sample Report} 
\author{Robert I. Kabacoff, Ph.D.} 
\usepackage{float} 
\usepackage[top=.5in, bottom=.5in, left=1lin, right=1in] {geometry} 
\begin{document} 
\maketitle 
<<echo=FALSE, results='hide', message=FALSE>>= 
library (multcomp) 
library (xtable) 
df <- cholesterol 
@ 



















































































\section{Results} 


Cholesterol reduction was assessed in a study 

that randomized \Sexpr{nrow(df)} patients 

to one of \Sexpr{length (uniaque (dfs$trt))} treatments. 
Summary statistics are provided in 

Table \ref{table:descriptives}. 
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<<echo=FALSE, results='asis'>>= 


descTable <- data.frame ("Treatment" = sort (unique (dfstrt)), 
"N" = as.vector (table(dfs$trt)), 
"Mean" = tapply (df$response, list(dfstrt), mean, na.rm=TRUE), 
SDB” = tapply (df$response, list(dfs$strt), sd, na.rm=TRUE) 
) 
print (xtable(descTable, caption = "Descriptive statistics 
for each treatment group", label = "table:descriptives"), 
caption.placement = "top", include.rownames = FALSE) 
@ 


The analysis of variance is provided in Table \ref{table:anova}. 


<<echo=FALSE, results='asis'>>= 

fit <- aov(response ~ trt, data=df) 

print (xtable(fit, caption = "Analysis of variance", 
label = "table:anova"), caption.placement = "top") 

@ 


\noindent and group differences are plotted in Figure \ref{figure:tukey}. 


\begin{figure} [Hl] \label{figure:tukey} 
\begin{center} 


<<echo=FALSE, fig.width=4, fig.height=3>>= 

par (mar=c (3,3,1,3)) 

boxplot (response ~ trt, data=df, col="lightgrey", 
xlab="Treatment", ylab="Response") 

@ 


\caption{Distribution of response times by treatment.} 
\end{center} 

\end{figure} 

\end{document} 


然后 文档 会 由 knit () 函数 处 理 。 


library (knitr) 
knit ("drugs.Rnw") 


在 这 一 步 中 ，R 代 码 块 会 经 过 处 理 ， 并 昌 根 据 选 项 ， 会 被 LaTeX 格 式 的 R 代 码 和 输出 所 替换 。 
默认 地 , knit ("drugs .Rnw") 接受 文件 drugs.Rnw 作 为 输入 , 接着 输出 文件 drugs.tex。 然后 LaTeX 
编译 器 会 处 理 .tex 文 件 ， 创 建 出 一 个 PDF 、PostScript 或 者 DVI 文件 。 

另 一 个 简单 的 做 法 是 ， 使 用 knitr 包 里 的 knit2pqf () 辅 助 函数 : 


library (knitr) 
knit2pdf ("drugs .Rnw" ) 


这 个 函数 生成 .tex 文 件 , 然后 把 它 转 换 成 为 一 个 处 理 好 的 PDF 文 档 drugs.pdf。 图 22-3 展 现 了 所 
得 到 的 PDF 文 档 。 
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Sample Report 
Robert |. Kabacoff，Ph.D. 
March 23, 2015 


1 Results 


Cholesterol reduction was assessed in a study that randomized 50 patients to one of 5 treatments. 
Summary statistics are provided in Table 1. 


Table 1: Descriptive statistics for each treatment group 
Treatment N Mean SD 








1time 10 5.78 2.88 
2times 10 9.22 3.48 
4times 10 12.37 2.92 
drugD 10 15.36 3.45 
drugE 10 20.95 3.35 





The analysis of variance is provided in Table 2. 


Table 2: Analysis of variance 
Df SumSq MeanSq Fvalue Pr(>F) 
trt 4 1351.37 337.84 32.43 0.0000 
Residuals 45 468.75 10.42 











and group differences are plotted in Figure 1. 
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Figure 1: Distribution of response times by treatment. 
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图 22-3 用 knit2pdaf() 处 理 文本 文件 drugs.Rnw ， 生 成 一 个 完成 排版 的 PDF 文件 
( drugs.pdf ) 
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knittz 包 的 文档 可 以 参见 http:/yihui.name/knitr 和 谢 益 辉 所 著 的 Dynamic Documents with R and 
Jnitr (Chapman && HalJCRC ，2013 )。 如 果 想 学 习 更 多 的 LaTeX 知 识 ， 请 查看 上 文 的 教程 和 
http:/www.latex-pioject.org。 








22.4 用 民 和 Open Document 创建 动态 报告 


尽管 LaTeX 很 强大 , 但 它 需 要 用 户 进行 大 量 学 习 才 能 有 效 地 使 用 ,而 且 创 建 出 的 是 不 可 编辑 
的 文档 格式 (PDF、DVI、PS )。 你 也 可 以 把 R 结 采 输 出 到 一 个 文字 处 理 文档 中 。 两 个 最 流行 的 格 
式 是 Microsoft Word ( .docx ) 和 Open Document ( .odf )。 

Open Document Format for Office Applications( ODF ) 是 一 种 开源 的 、 基 于 XML 的 文件 格式 ， 
它 和 很 多 软件 套件 相 兼 容 。 两 个 流行 的 免费 办 公 套 件 是 OpenO 人 ce ( http://www.openoffice.org ) 
和 LibreOffice ( http://www.libreoffice.org )。 它 们 都 能 运行 于 Windows、Mac OS X 和 Linux 环 境 ， 都 
可 以 在 本 节 中 使 用 。 

odfWeave 包 提供 了 一 个 嵌 和 人 了 R 代 码 和 输出 到 Open Document 文 件 的 机 制 。 在 本 节 中 ， 你 将 创 
建 一 个 探索 男女 教授 工资 差异 的 报告 。 

在 安装 OpenOffice (或 LibreOffice ) 和 odfweave 包 之 后 ， 创 建 一 个 叫 作 salaryTemplate.odt 的 
文档 ( 参见 图 22-4 )。 这 个 文档 包含 格式 化 的 文本 和 R 代 码 块 。 文 本 是 使 用 OpenOffice (或 
LibreOffice ) 的 界面 来 格式 化 的 。 代 码 块 如 下 分 割 : 


<<options>>= 
R statements 
@ 


表 22-3 给 出 了 代码 块 的 选项 。 行 内 R 代 码 结果 ( 数字 或 字符 串 ) 可 以 用 \Sexpr{R code} 来 























































































































包含 。 
表 22-3 ”odfWeave 包 中 的 R 代 码 块 选项 
选 项 动 作 
echo 在 输出 文件 中 包含 R 代 码 (TRUE 或 FALSE) 
results 按 原 样 输出 结果 (verbatim)， 输 出 为 XML 代码 (XML) 或 隐藏 输出 (hiae) 
fig 代码 块 生成 图 像 输 出 (TRUE 或 FALSE) 


文档 被 保存 之 后 ， 可 以 用 odfweave 包 里 的 odfweave() 对 此 进行 处 理 : 


library (odfWeave) 

infile <- "salaryTemplate.odt" 
outfile <- "salaryReport .odf" 
odfWeave (infile, outfile) 


以 上 代码 接受 如 图 22-4 所 示 的 salaryTemplate.odt， 生 成 如 图 22-5 所 示 的 Report.odf 文 件 。 
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My Sample Report 
Robert I. Kabacoff, Ph.D. 


<<echo=FALSE, results=hide>>= 
library {car) 


df <- Salaries 


Percentiles <- function(x, y){ 
PO <- aggregate (x, by=list{(y), FUN=quantile, 0) 
P25 < agqgregate (ns by-list (yl FUN-audntiley 23) 
P50 <- aggregate (x, by=list(y), FUN=quantile, .5) 
P75 <- aggregate(x, by=list(y), FUN=quantile, .75}) 
P100 <- aggregate (x, by=list(y), FUN=quantile, 1} 
GT <- data.frame (PO, P25[2], P50[2], P75[2], P100[2]) 
names (GT) <- cl("Group", "0%", "25%", "50%", "75%", "100g") 
return (gqT) 

3 

quantTable<- percentiles (df$salary, df$sex) 

3 

1 The study 


The salaries of \Sexpr {nrow(df)} male and female college professors were studied to assess possible 
gender discrimination. Summary statistics are provide in Table 1. 


Table 1. Salary quantiles for male and female professors 
<<echo=FALSE, results=xml>>= 

odfTable (quantTable, useRowNames=FALSE) 
本 


The distributions are plotted in Figure 1. 


<<fig=TRUE, echo=FALSE>>= 
boxplot {df$salary ~ df$sex, 
(dollars}) ") 

5 


col="lightgrey", ylab="Annual Salary 


Figure 1. Distribution of salaries by gender. 








图 22-4 ”有 租 入 R 代 码 块 的 OpenOffice Writer 文 件 ( salaryTemplate.odt ) 。odfWweave() 
处 理 完 此 文件 之 后 ， 会 生成 如 图 22-7 所 示 的 报告 ( salaryReport.odf ) 


















































My Sample Report 
Robert I. Kabacoft, Ph.D. 
1 The study 
The salaries of 397 male and female college professors were Studied to assess possible gender 
discrimination. Summary statistics are provide in Table 1. 
Table 1. Salary quantiles for male and female professors 
Group 0% 25% 50% 75% 100% 
Female 62884 77250 103750 117003 161101 
Male 57800 92000 108043 134864 231545 
The distributions are plotted in Figure 1], 
Figure 1. 
Distribution o 
of salaries by 
gender. © 
号 J 9 
| : : 
| 
8 一 
T T 
Female Male 
EE 站 
图 22-5 ”最 后 的 ODF 格 式 报告 (salaryReport.odf ) 
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默认 情况 下 ，odfweave 用 一 种 美观 的 表格 格式 来 泻 染 数据 框 、 和 矩阵 和 向 量 。odfTable () 
函数 能 以 更 高 的 精度 和 更 好 的 控制 来 格式 化 表格 。 这 个 函数 生成 XML 代码 ， 所 以 请 确认 使 用 此 
函数 时 在 代码 块 指定 了 result=xml。 不 幸 的 是 ，xtable () 函数 不 能 和 odqfweave 协 作 。 

一 旦 你 生成 了 ODF 格 式 的 报告 ,就 可 以 继续 编辑 它 , 使 排版 更 加 紧凑 , 然后 使 用 ODT HTML、 
DOC 或 DOCX 文 件 格 式 来 保存 结果 。 如 果 想 学 习 更 多 ,可 以 查阅 odfweave 手 册 和 简介 短文 
( vignette )。 更 多 的 信息 可 以 在 安装 在 R 库 中 odfWeave 文 件 夹 中 的 Example 文 件 夹 找 到 ， 其 中 包括 
一 个 如 何 用 odfweave 对 文档 格式 化 的 教程 。( 函数 .1ipPaths () 会 输出 你 的 库 所 在 位 置 。) 















































22.5 用 民 和 Microsoft Word 创建 动态 报告 


不 管 是 好 是 坏 ，Microsoft Word 都 是 企业 中 书写 报告 的 标准 。 你 已 经 知道 如 何 用 rmarkdown 
从 一 个 Markdown 文 件 创 建 一 个 Word 文档 ( 22.2 节 ), 在 本 节 中 , 我 们 将 研究 一 种 方法 , 使 用 R2wa 
包 创 建 出 直接 把 R 代 码 租 入 Word 文 档 的 动态 报告 。 本 节 的 方法 只 在 Windows 平 台中 有 效 ( Mac 和 
Linux 用 户 ， 对 不 起 了 )。 
如 果 想 复 现 本 节 的 代码 ， 你 需要 先 安装 R2wd 包 ( install.packages ("R2wd") )。R2wd 还 
需要 来 自 于 Omega Project for Statistical Computing 项 目的 RDCOMClient 包 。 

在 写 这 本 书 的 时 候 ，RDCOMC1lient 一 定 要 从 源 代码 安装 。 首 先 ， 要 确认 已 安装 Rtools 
( http://cran.r-project.org/bin/windows/Rtools )。 接 着 ， 从 http://www.omegahat.org/RDCOMClient 下 
载 源 文件 (RDCOMC 1lient 0.93-0.targz )。 注 意 ， 版 本 号 很 可 能 隔 一 段 时 间 就 有 所 改变 。 最 后 ， 
用 以 下 代码 安装 包 : 

install.packages (RDCOMClient_0.93-0.tar.gz, repos = NULL, type = "Source") 

R2wd 包 提供 了 一 些 函 数 ， 允 许 你 创建 一 个 空白 的 Word 文 档 ， 插 入 章节 和 标题 ， 插 入 文字 、 
表格 和 图 片 ， 加 上 格式 ， 以 及 保存 结果 。 尽 管 这 个 包 功 能 繁多 ， 编 程 化 地 创建 和 格式 化 Word 文 
档 还 是 会 耗费 很 长 时 间 。 

以 下 的 两 步 ， 是 用 R2wd 包 在 Word 中 创建 一 个 动态 报告 的 最 简单 方法 : 

(1) 创建 一 个 包含 书签 的 Word 文 档 ， 书 签 标记 着 你 想 在 哪里 放置 R 代 码 ，; 

(2) 创建 一 个 R 肢 本， 这 个 脚本 把 结果 插入 Word 文 档 书签 所 指 的 位 置 ， 然 后 保存 完成 的 文档 。 

让 我 们 试 一 下 这 个 方法 。 

打开 一 个 新 的 Word 文 档 , 然后 命名 为 salaryTemplate2.docx。 加 上 如 图 22-6 所 示 的 文字 和 书签 。 
(实际 上 ， 图 22-6 中 的 书签 是 不 可 见 的 。 我 标记 好 了 图 片 ， 对 书签 的 背景 添加 了 颜色 ， 并 且 加 粗 
了 文字 ， 因 此 你 可 以 知道 每 一 个 书签 应 该 被 添加 在 哪里 。) 
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Sample Report 


Introduction 

A two-way analysis of variance was employed to investigate the relationship between gender, 
academic rank, and annual salary in dollars. Data were collected from n professors in 2008. The 
ANOVA table is given in Table 1. 


aovTable 
The interaction between gender and rank is plotted in Figure 1. 


effectsPlot 














TT 

















图 22-6 ”名 为 salaryTemplate2.docx 的 Microsoft Word 文 档 ， 其 中 包含 文本 和 书签 。 通 过 
salary. 了 脚本 〈 代码 清单 22-3 ) 处 理 该 文件 ， 将 结果 插入 书签 位 置 ， 并 将 文档 
保存 为 salaryReport2.docx( 图 22-7 ) 。 注 意 书签 ( 加 粗 、 带 底 色 ) 在 页 面 上 其 
实 并 不 是 可 见 的 ; 我 对 图 片 进行 了 标记 ， 使 读者 看 到 在 哪里 添加 书签 


如 果 想 插入 一 个 书签 ， 把 光标 放置 在 你 想 添 加 书签 的 位 置 ， 选 择 “ 插 入 ”一 “书签 ”"， 为 书 
签 命 名 ， 然 后 点 击 添加 。 这 个 例子 的 书签 分 别 被 命名 为 n、aovTable 和 effectsPlot。 

































































小 提示 在 Microsoft Word 中 选择 “选项 ”一 “高 级 ”一 “显示 书签 ”， 可 以 看 到 书签 被 添加 在 
哪里 。 





接着 ， 创 建 如 代码 清单 22-3 所 示 的 R 脚 本 。 在 运行 R 脚 本 的 时 候 ， 脚 本 会 运行 必要 的 分 析 ， 
把 它们 搬入 到 Word 文 档 中 ， 接 着 把 最 后 的 文档 保存 到 磁盘 中 。 表 22-4 列 出 了 脚本 所 使 用 到 的 


代码 清单 22-3 salaryR: 在 salary.docx 中 插入 结果 的 R 脚 本 


require (R2wd) 
require (car) 





df <- Salaries 

n <- nrow(df) 

fit <- lm(salary ~ rank*sex, data=df) 
aovTable <- Anoval(lfit, type=3) 

aovTable <- round(as.data.frame (aovTable), 3) 
aovTable[is.na(laovTable)] <- "" 


了 打开 文档 
wdGet ("salaryTemplate2.docx", method="RDCOMClient") 

wdGoToBookmark ("n") | 居 插入 文本 
wdWrite(n) 


wdGoToBookmark ("aovTable") 


wdTable(aovTable, caption="Two-way Analysis of Variance", 插入 表格 
caption.pos="above", pointsize=12, autoformat=4) 
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wdGoToBookmark ("effectsPlot") 
myplot <- function(){ 
require (effects) 
Dar(mar=so{2 ,27 2)) >» 
plot (allEffects (fit), main="") 中 4 插入 图 形 
} 
wdPlot (plotfun=myplot, caption="Mean Effects Plot", 





height=4, width=5, method="metafile") | 加 WPHBd 


wdqSave("SalaryReport2 .qocx" ) 













































































wdQuit () 
表 22-4”R2wad 函 数 
函 数 使 《用 
wdGet () 返回 一 个 指向 Word 文 档 的 句柄 。 如 果 Word 未 运行 ， 会 自动 启动 ， 打 开 一 个 空白 文档 ， 然 后 一 
个 句柄 会 被 返回 
wdqGoToBookmark () ”把 光标 移动 到 书签 位 置 
wdWrite 在 光标 处 写 入 文字 
wdTable() 把 一 个 数据 框 或 一 个 向 量 作为 一 个 Word 表 格 写 入 到 当前 光标 所 在 位 置 
wdPlot () 创建 一 个 RR 图片， 把 它 粘贴 到 当前 光标 所 在 位 置 
wdSave () 保存 Word 文 档 。 如 果 没 有 文件 名 ，Word 会 为 用 户 弹出 一 个 提示 
wdQuit () 关闭 Word， 移 除 句柄 

















首先 ，salary2Template.docx 会 被 打开 。 如 果 Word 不 是 正在 运行 当中 ， 它 会 被 自动 打开 @。 接 
着 ,执行 数据 分 析 过 程 。 然 后 光标 会 被 移动 到 名 为 n 的 书签 位 置 ， 样 本 量 的 值 会 被 插入 这 个 位 置 
当中 加。 

下 一 步 ， 光 标 会 被 移动 到 名 为 aovTable 的 书签 处 ， 方 差分 析 的 结果 会 作为 一 个 Word 表 格 被 
插入 此 位 置 @。 因 为 R2wa 不 支持 xtable () 图 数 ， 所 以 表格 必须 是 一 个 R 数 据 框 、 一 个 矩阵 或 者 
一 个 向 量 。 可 用 选项 来 控制 表格 标题 的 文字 和 位 置 , 字体 大 小 和 表格 样式 。 可 以 尝试 autoformat 
等 于 1、2、3， 以 此 类 推 , 来 看 到 各 种 可 用 的 格式 。 现 在 没有 任何 办 法 来 忽略 标题 。 

方差 分 析 代 码 中 的 两 行 需要 额外 的 解释 。aovTable 对 象 是 一 个 包含 双 因 子 方差 分 析 结 果 的 
数据 框 。rouna () 函数 用 来 限制 表格 中 小 数 点 后 显示 位 数 。 以 下 语句 : 


aovTablel[is.na(laovTable)] <- "" 


是 一 个 用 空白 字符 来 替代 Na 值 的 技巧 。 这 一 步 是 必要 的 , 因为 在 Residuals 行 的 FP 和 Pr (>F) 
列 中 没有 任何 值 ， 而 你 并 不 想 在 表格 的 这 些 单元 格 中 显示 出 Na 字样 。 

然后 光标 会 被 移动 到 名 为 effectsPlot 的 书签 。wdPlot () 函数 要 求 用 户 指定 一 个 绘图 函 
数 。 这 里 ，myplot () 函数 返回 一 个 通过 effects 包 allEffects() 函数 生成 的 效应 图 @@。 

wdPlot () 函数 支持 methodq="bitmap" 和 method="metafile"。 尽 可 能 使 用 metafile， 
因为 它 在 Word 文 档 里 显示 得 更 好 。 遗 憾 的 是 ，metafile 选 项 不 支持 透明 度 ， 因 此 在 出 现 透明 度 
时 需要 使 用 bitmap 选 项 。 你 最 有 可 能 在 使 用 ggp1ot2 包 创建 图 形 的 时 候 遇 到 透明 度 的 概念 。 
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当 运 行 salary.R 的 代码 的 时 候 ， 它 的 R 代 码 会 被 运行 ， 将 结果 插入 salaryTemplate2.docx， 然 后 
生成 的 Word 文 档 会 被 保存 为 salaryReport2.docx 回 。 之 后 会 退出 Microsoft Word 程 序 。 最 终 的 文档 
结果 如 图 22-7 所 示 。 














Sample Report 





Introduction 
A two-way analysis of variance was employed to investigate the relationship between gender, 
academic rank, and annual salary in dollars. Data were collected from 397 professors in 2008. 


The ANOVA table is given in Table 1. 


Table 1 Two-way Analysis of Variance 





SumSq Df Fvalue Pr(>F) 








(Intercept) | 67009671400 1 119.538 0 
rank 15266607695 2 13.617 0 
sex 97803720 1 0.174 0.676 
rank:sex 43603063 2 0.039 0.962 
Residuals | 219184457146 391 


The interaction between gender and rank is plotted in Figure 1. 
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Figure 1 Mean Effects Plot 








图 22-7 DOCX 格 式 的 最 终 报告 ( salaryReport2.docx ) 


注意 , 不 像 之 前 的 方法 ， 这 个 创建 动态 报告 的 方法 涉及 两 个 文件 : 一 个 Word 模 板 和 一 个 R 脚 
本 。R 代 码 没 有 直接 做 入 Word 文 档 中 。 

在 本 节 中 ， 你 使 用 了 R2wq 包 ， 不 过 还 有 其 他 选择 。ReporteRs 包 (http:/davidgohelgithub. 
io/ReporteRs/ ) 是 一 个 有 力 的 竞争 者 ， 它 可 以 从 R 中 动态 创建 Microsoft Office 文 档 。 总 的 来 说 ， 把 
R 与 Microsoft Office 连 接 的 技术 在 飞速 发 展 ， 你 可 以 期 待 未 来 有 更 多 的 选项 。 




















22.6 小结 489 





22.6 ”小结 


本 章 中 ， 你 见 到 了 多 个 把 R 结 果 合 并 到 报告 中 的 方法 。 这 些 报告 是 动态 的 ， 因 为 改变 数据 和 
重新 处 理 代码 会 生成 一 个 经 过 更 新 的 报告 。 你 学 习 了 创建 网 页 、 排 版 文档 、Open Document 格 式 
报告 和 Microsoft Word 文 档 的 方法 。 

本 章 所 描述 的 模板 方法 有 很 多 好 处 。 通过 直接 般 入 统计 分 析 所 需 的 代码 , 你 可 以 准确 地 看 到 
结果 是 如 何 计算 出 来 的 。 六 个 月 之 后 ,你 就 可 以 轻易 地 得 知 完成 了 什么 。 你 也 可 以 改变 统计 分 析 
或 者 添加 新 代码 ， 用 最 少 的 付出 立刻 重新 生成 新 的 报告 。 此 外 ,你 避免 了 复制 粘贴 和 重新 排版 结 
果 的 需要 。 单 凭 这 一 点 就 值得 学 习 。 

本 章 的 模板 是 静态 的 ， 因 为 它们 的 结构 是 固定 的 。 尽管 这 里 没有 讲 到 , 但 是 你 也 可 以 用 这 些 
方法 创造 出 一 系列 专业 报告 系统 。 比 如 说 ，R 代 码 块 的 输出 可 以 依赖 于 提交 的 数据 。 如 果 提 交 数 
字 变 量 ， 可 以 生成 一 个 散 点 图 矩阵 ; 如果 提交 类 别 变量 ， 可 以 生成 一 幅 马 赛 克 图 。 与 其 类 似 ， 解 
释 性 的 文字 也 可 以 根据 分 析 的 结果 来 生成 。 用 R 的 if/then 结 构 会 使 得 自 定 义 的 可 能 性 无 穷 无 尽 。 
你 可 以 用 这 个 办 法 建造 一 个 复杂 的 专业 系统 。 

在 本 书 中 ， 我 们 讨论 了 如 何 导 入 数据 到 R， 并 进行 清理 、 分 析 、 可 视 化 ， 最 后 展示 给 别人 。 
我 们 已 经 讨论 了 很 多 的 主题 。 后 记 给 出 了 帮助 你 继续 学 习 R 的 资源 。 
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本 章 内 容 

口 lattice 包 介绍 

口 分 组 和 调节 

口 在 面板 函数 中 添加 信息 

口 自 定义 lattice 图 形 的 外 观 








在 本 书 中 ,我们 使 用 R 自 带 的 graphics 包 中 的 基础 函数 和 作者 贡献 包 中 的 特定 函数 创建 了 
大 量 图 形 。 在 第 19 章 中 ， 我 们 学 习 了 一 种 新 语法 ， 可 以 使 用 ggplot2 包 中 的 函数 创建 图 形 。 对 RR 
自 带 的 基础 图 形 来 说 ，ggplot2 包 提供 了 一 种 蔡 代 方案 ， 在 创建 复杂 图 形 时 十 分 有 用 。 


在 本 章 ， 我 们 将 一 起 学 习 Deepayan Sarkar ( 2008 ) 编写 的 1attice 包 ， 它 实现 了 Cleveland 
(1983 ，1993 ) 提出 的 网 格 图 形 。1lattice 包 已 经 超越 了 Cleveland 的 初始 可 视 化 数据 方法 ， 并 且 
提供 了 一 系列 创建 统计 图 形 的 复杂 方法 。 像 ggplot2 一 样 ，1attice 图 形 有 它 自己 的 语法 ,提供 
了 对 基础 图 形 的 蔡 代 方案 ， 而 且 擅 长 绘制 复杂 数据 。 分 析 师 基于 个 人 偏好 使 用 1attice 包 或 
ggplot2 包 。 尝 试 这 两 个 包 ， 看 看 你 更 喜欢 哪个 。 









































23.1 lattice 包 


lattice 包 提供 了 用 于 可 视 化 单 变量 和 多 变量 数据 的 一 整套 图 形 系 统 。 许 多 用 户 转向 使 用 
lattice 包 是 因为 它 能 很 容易 地 生成 网 格 图 形 。 

网 格 图 形 能 够 展示 变量 的 分 布 或 变量 之 间 的 关系 ， 每 幅 图 代表 一 个 或 多 个 变量 的 各 个 水 平 。 
思考 下 面 的 问题 ， 纽约 合唱 团 各 声 部 的 歌手 身高 是 如 何 变化 的 ? 

lattice 包 在 singer 数 据 集中 提供 了 身高 和 声 部 的 数据 。 在 下 面 的 代码 中 : 


library (lattice) 

histogram(~height | voice.part, data = singer, 
main="Distribution of Heights by Voice Pitch", 
xlab="Height (inches)") 


height 是 独立 的 变量 ，voice.part 被 称 作 调节 变量 。 上 面 的 代码 可 以 得 出 每 个 声 部 的 直方 图 ， 
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见 图 23-1。 从 图 上 可 以 看 出 ， 似 乎 男 高 音 和 男 低音 比 女 低音 和 女 高 音 的 身高 更 高 。 
Distribution of Heights by Voice Pitch 
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图 23-1 ” 按 声 部 划分 的 歌手 身高 的 网 格 图 
在 网 格 图 中 , 调节 变量 的 每 个 水 平生 成 一 个 独立 的 面板 。 如 果 指 定 多 个 调节 变量 ,这些 变 量 





因子 水 平 的 每 个 组 合 都 会 生成 一 个 面板 。 面 板 被 分 配 到 数组 中 以 便 比 较 。 在 每 个 面板 名 为 条 带 


(strip ) 的 





区 域 中 会 提供 一 个 标签 。 





Lo 

















正如 我 们 看 到 的 ， 用 户 可 以 控制 每 个 面板 上 的 图 形 ， 条 板 的 
格式 和 放置 的 位 置 ， 面 板 的 安排 ,图 例 的 放置 和 内 容 ， 以 及 许多 其 他 的 图 形 特征 


lattice 包 提供 了 大 量 的 函数 来 产生 单 因 素 图 ( 点 图 、 核 密度 图 、 直 方 图 、 条 形 图 、 箱 线 图 )， 





二 元 图 ( 散 点 图 、 条 形 图 、 平 行 箱 线 图 ) 和 多 元 图 (3D 图 、 散 点 图 和 矩阵 )。 每 个 高 水 平 的 画图 函 
数 都 服从 下 面 的 格式 : 


graph_function(formula, data=, options) 


其 中 : 





口 graph_function 是 表 23-1 第 2 列 中 的 一 个 函数 ，; 











口 formula 指 定 要 展示 的 变量 和 任意 的 调节 变量 ; 
口 data= 指 定数 据 框 ; 




















口 options 是 用 逗号 分 隔 的 参数 ,用 来 调整 图 形 的 内 容 、 安 排 和 注释 。 参 见 表 23-2 对 常见 参 
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数 的 描述 。 
我 们 假定 小 写字 母 代 表 数 值 型 变量 ， 大 写字 母 代 表 分 类 型 变量 ( 因子 )。 高 水 平 的 画图 函数 
通常 采取 的 格式 是 : 








y~x|A*B 
其 中 竖 线 左 侧 的 变量 称 为 主要 变量 ( primary variable )， 右 边 的 变量 称 为 调节 变量 ( conditioning 
variable )。 主 要 变量 将 变量 映射 到 每 个 面板 的 轴 上 。 这 里 的 y~x 分 别 描述 了 在 纵 轴 和 横 轴 上 的 变 
量 。 对 于 单 变量 图 ， 用 ~x 代 符 y~x; 对 于 3D 图 ， 用 z~x*y 代 蔡 y~x; 对 于 多 变量 图 ( 散 点 图 矩阵 
或 平行 坐标 曲线 图 )， 用 数据 框 来 代替 y~x。 需 要 注意 的 是 调节 变量 总 是 可 选 的 。 

按照 这 个 逻辑 ，~xl2 表 示 因 子 A 每 个 水 平 的 数值 变量 x。y~xl2*B 表 示 在 给 定 因 子 A 和 B 的 水 
平 后 , 数值 变量 y 和 x 的 关系 。A~x 表 示 在 纵 轴 上 的 分 类 变量 A 和 横 轴 上 的 数值 变量 x。~x 表 示 数 值 
型 变量 x。 其 他 的 例子 可 参考 表 23-1。 























































































































表 23-1 lattice 包 中 的 图 类 型 和 相应 的 函数 

图 类 型 函数 公式 例子 
3D 等 高 线 图 contourplot () Z~X*Yy 
3D 水 平 图 levelplot () Z~y*X 
3D 散 点 图 cloud() ya 
3D 线 框图 wireframe () Z~y*X 
条 形 图 barchart () x~A 或 A~x 
箱 线 图 bwplot () 县 世 吉 元 六 
点 图 dotplot () ~ 六 | 五 
柱状 医 histogram() ~x 
核 密度 图 densityplot() ~x|A*B 
平行 坐标 曲线 图 parallelplot () dataframe 
散 点 图 xyplot () y~x|A 
散 点 图 矩阵 splom() dataframe 
线 框图 stripplot () 六 























注 : 在 这 些 公式 中 小 写字 母 表示 数值 型 变量 





， 大 写字 母 表示 分 类 型 变量 。 





为 了 尽快 对 lattice 图 有 一 个 认识 , 试 着 运行 代码 清单 23-1 中 的 代码 。 里面 的 图 基于 mtcars 
数据 框 中 的 汽车 数据 (里 程 、 车 重 、 挡 数 、 汽 饶 数 等 )。 我 们 也 可 以 变换 公式 并 查看 结果 。( 为 了 
节省 空间 ， 结 果 已 经 省 略 。) 
代码 清单 23-1 lattice 画 图 例子 


library (lattice) 
attach (mtcars) 





gear <- factor(gear, levels=c(3, 4, 5), 
labels=c("3 gears", "4 gears", 
cyl <- factor(cyl, levels=c(4, 6, 8), 


"5 gears")) 
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labels=c("4 cylinders", "6 cylinders", "8 cylinders")) 


densityplot (~mpg, 
main="Density Plot", 
xlab="Miles per Gallon") 


densityplot (~mpg | cyl, 
main="Density Plot by Number of Cylinders", 
xlab="Miles per Gallon") 


bwplot(cyl ~ mpg | gear, 
main="Box Plots by Cylinders and Gears", 
xlab="Miles Per Gallon", ylab="Cylinders") 


xyplot (mpg ~ wt | cyl * gear, 
main="Scatter Plots by Cylinders and Gears", 
xlab="Car Weight", ylab="Miles Per Gallon") 


cloud(mpg ~ wt * gqsec | cyl, 
main="3D Scatter Plots by Cylinders") 


dotplot(cyl ~ mpg | gear, 
main="Dot Plots by Number of Gears and Cylinders", 
xlab="Miles Per Gallon") 


splom(mtears [tet(ly 3 :4 5 6) 1 
main="Scatter Plot Matrix for mtcars Data") 


detach (mtcars) 


lattice 包 中 的 高 水 平 画 图 函数 能 产生 可 保存 和 修改 的 图 形 对 象 。 例 如 ， 


library (lattice) 
mygraph <- densityplot (~height|voice.part, data=singer) 


创建 了 一 个 网 格 密度 图 , 并 把 它 保存 为 对 象 nygraph。 但 是 没有 图 像 展 示 。 声明 plot (mygraph) 
(或 仅仅 是 mygraph ) 将 会 展示 出 这 幅 图 。 

通过 调整 选项 很 容易 改变 lattice 图 形 。 常 见 的 选项 列 在 表 23-2 中 。 我们 将 会 在 本 章 稍 后 看 
到 与 它们 相关 的 例子 。 









































表 23-2 lattice 高 水 平 画 图 函数 的 常见 选项 





















































选 项 描 述 
aspect 指定 每 个 面板 图 形 的 纵横 比 (高 度 /宽度 ) 的 一 个 数字 
col、pch、1lty、lwq ”分 别 指定 在 图 中 用 到 的 颜色 、 符 号 、 线 类 型 和 线 宽度 的 向 量 
group 分 组 变量 (因子 ) 
index.cond 列 出 展示 面板 顺序 的 列表 
key (或 auto.key) 支持 分 组 变量 中 图 例 的 函数 
layout 指定 面板 设置 ( 列 数 和 行 数 ) 的 二 元 素数 值 向 量 。 如 果 需 要 ， 可 以 增加 一 个 元 素来 表示 页 

















面 数 
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( 续 ) 
main、sub 指定 主 标题 和 副标题 的 字符 向 量 
panel 在 每 个 面板 中 生成 图 的 函数 
scales 列 出 提供 坐标 轴 注 释 信 息 的 的 列表 
strip 用 于 自 定义 面板 条 带 的 函数 
split、position ”数值 型 向 量 ， 在 一 页 上 绘制 多 幅 图 形 
type 指定 一 个 或 多 个 散 点 图 绘图 选项 (p= 点 ，1= 线 ，r= 回 归 线 ，smooth= 局 部 多 项 式 回 归 拟 合 ， 
g= 网 格 图 形 ) 的 字符 向 量 
xlab、 ylab 指定 横 轴 和 纵 轴 标签 的 字符 向 量 
xlim, ylim 分 别 指定 横 轴 和 纵 轴 最 小 值 、 最 大 值 的 二 元 素数 值 向 量 

















我 们 可 以 在 高 级 函数 内 部 调用 或 在 23.3 节 讨论 的 面板 函数 内 使 用 这 些 选项 。 
我 们 也 可 以 使 用 update () 函数 来 调整 1attice 图 形 对 象 。 继 续 歌手 的 例子 ， 下 面 的 代码 : 


newgraph <- update(mygraph, col="red", pch=16, 
cex=.8, jitter=.05, lwd=2) 


使 用 红色 曲线 和 符号 (color="red" )， 填 充 点 (pch=16 )， 更 小 ( cex=.8 ) 更 高 的 抖动 点 
(jitter=.05) 和 双 倍 厚度 曲线 ( 1wd=2 ) 来 改变 mvgraph。 更 改 的 结果 保存 在 newgraph 中 。 
现在 我 们 已 经 生成 了 高 水 平 1attice 函 数 的 通用 结构 ， 下 面 来 详细 看 一 下 调节 变量 。 














23.2 ”调节 变量 


可 以 看 到 ，lattice 绘 图 的 一 个 强大 特征 是 可 以 增加 调节 变量 。 如 果 存 在 一 个 调节 变量 , 就 
可 以 绘制 出 对 应 每 个 水 平 的 面板 图 。 如果 存在 两 个 调节 变量 , 就 可 以 绘制 出 给 定 两 个 变量 每 个 水 
平 的 任意 组 合 的 面板 图 。 包 括 两 个 以 上 调节 变量 的 图 就 不 怎么 有 用 了 。 

通常 情况 下 ， 调 节 变 量 是 因子 。 但 是 对 于 连续 的 变量 应 该 如 何 操作 呢 ? 一 种 方法 是 使 用 R 的 
cut () 函数 将 连续 的 变量 转化 为 离散 的 变量 。 另 一 种 方法 是 ，lattice 包 提供 的 函数 可 以 将 连续 
的 变量 转化 为 名 为 shingle 的 数据 结构 。 具 体 来 说 ， 连 续 变量 被 分 成 一 系列 ( 可 能 ) 重叠 的 范围 。 
例如 ， 函 数 : 

myshingle <- equal.count (x, number=n, overlap=proportion) 
将 连续 的 变量 x 分 成 np 个 间隔 , 重 受 比例 是 proporcion， 每 个 间隔 里 的 观测 值 个 数 相 同 ， 并 将 其 
返回 为 变量 myshingle (属于 shingle 类 )。 打 印 或 画 出 对 象 〈 例如 输入 plot (mysingle) ) 将 
展示 shingle 的 间隔 。 

一 旦 变量 转化 为 shingle， 就 可 以 使 用 它 来 作为 一 个 调节 变量 。 例 如 ， 我 们 使 用 mt cars 数 据 
集 来 探索 汽车 每 加 仑 汽油 的 行驶 英里 数 与 以 发 动机 排 量 为 条 件 的 汽车 重量 之 间 的 关系 。 因 为 发 动 
机 排 量 是 一 个 连续 的 变量 ， 所 以 首先 把 它 转化 为 三 水 平 的 shingle 变 量 : 


displacement <- equal.count (mtcars$disp, number=3, overlap=0) 
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接 下 来 ， 把 这 个 变量 应 用 到 xyplot () 函数 中 : 


xyplot (mpg~wt |displacement, data=mtcars, 
main = "Miles per Gallon vs. Weight by Engine Displacement", 
xlab = "Weight", ylab = "Miles per Gallon", 
layout=c(3, 1), aspect=1.5) 


结果 如 图 23-2 所 示 。 值得 注意 的 是 , 我 还 使 用 了 选项 来 调整 面板 的 布局 (一 行 三 列 ) 和 纵横 比 (高 
/ 宽 ) 来 让 三 组 的 对 比 变 得 更 容易 。 
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图 23-2 ”每 加 仓 汽 油 英 里 数 与 以 发 动机 排 量 为 条 件 的 汽车 重量 之 间 的 网 格 图 。 因 为 发 
动机 排 量 是 连续 性 的 变量 ， 所 以 将 其 转化 为 含有 相同 观测 值 的 三 个 不 重 全 的 




















shingle 


可 以 看 到 图 23-1 和 图 23-2 中 面板 条 带 的 标签 是 不 一 样 的。 图 23-2 中 的 表现 形式 指出 了 调节 变 
量 的 连续 性 质 ， 较 深 的 颜色 表示 给 定 面板 中 调节 变量 的 范围 。 在 下 一 节 中 , 我 们 将 使 用 面板 函数 
来 进一步 自 定义 输出 。 


23.3 面板 函数 


在 表 23-1 中 ， 每 一 个 高 水 平 的 画图 函数 都 采用 了 默认 的 函数 来 绘制 面板 图 。 默 认 函 数 遵循 命 
名 规则 panel .graph_function， 其 中 graph_function 指 的 是 高 水 平 的 函数 。 例 如 ， 


i 
xyplot (mpg~wt |displacement, data=mtcars) Ee 


也 可 以 写成 : 


xyplot (mpg~wt |displacement, data=mtcars, panel=panel .xyplot) 
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这 是 一 个 强大 的 功能 ,因为 它 可 以 让 我 们 用 自己 设计 的 默认 函数 来 代替 默认 的 面板 函数 。 我 
们 也 可 以 将 lattice 包 50 多 个 默认 函数 中 的 一 个 或 多 个 集成 到 我 们 自 定义 的 函数 中 。 自 定义 的 面 
板 函 数 在 设计 满足 我 们 需求 的 输出 时 给 了 我 们 很 大 的 灵活 性 。 让 我 们 看 看 下 面 的 几 个 例子 。 

在 前 面 一 节 中 , 我 们 画 出 了 以 汽车 发 动机 排 量 为 条 件 的 汽车 重量 的 油耗 。 如 果 你 想 加 上 回归 
线 、 地 毯 圆 和 网 格 线 ， 需 要 做 什么 呢 ? 我 们 可 以 通过 创建 自己 的 面板 函数 来 实现 它 ( 参见 代码 
清单 23-2 )。 结 果 如 图 23-3 所 示 。 


代码 清单 23-2” 自 定义 面板 函数 xyplot 























library (lattice) 
displacement <- equal.count (mtcars$disp, number=3, overlap=0) 


mypanel <- function(x, y) { 
panel .xyplot (x, y, pch=19) 
panel .rug (x, y) 
panel.grid(h=-1, v=-1) 
panel.lmline(x, y, col="red", lwd=1, lty=2) 
} 


xyplot (mpg~wt |displacement, data=mtcars, 
layout=c(3, 1), 


aspect=1.5, 

main = "Miles per Gallon vs. Weight by Engine Displacement", 
xlab = "Weight", 

ylab = "Miles per Gallon", ey 自 定义 的 面板 函数 
panel = mypanel) 


这 里 我 们 将 四 个 独立 的 构件 函数 集成 到 自己 的 mypanel () 函数 中 ， 并 通过 xyplot () 函数 中 
的 panel=option 选 项 使 它 生 效 @。panel .xyplot () 函数 使 用 一 个 填充 的 圆 (pch=19 ) 产生 
散 点 图 。panel.rug() 函数 把 地 毯 图 加 到 x 轴 和 7 轴 的 每 个 标签 上 。 panel.rug (x, FALSE) 和 
panel.rug(FALSE，Y) 将 分 别 把 地 毯 加 到 横 轴 和 纵 轴 。panel .griq() 函数 添加 水 平和 垂直 的 
网 格 线 ( 使 用 负数 迫使 其 用 轴 标 签 排队 )。 最 后 ，panel .1lmline() 函数 添加 了 被 泻 染 成 红色 
( col="red" )、 标 准 厚度 (1wd=2 ) 的 虚线 (Ity=2 ) 回归 曲线 。 每 个 默认 的 面板 函数 都 有 自己 
的 结构 和 选项 。 可 以 参考 帮助 页 面 来 获取 细节 (例如 输入 help (panellmline) )。 
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Miles per Gallon vs. Weight by Engine Displacement 
2 3 4 5 


displacement 到 | ement | displace 
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Weight 
图 23-3 ”以 发 动机 排 量 为 条 件 的 每 加 仑 汽油 英里 数 和 汽车 重量 之 间 的 网 格 图 。 添 加 了 
回归 曲线 、 地 毯 图 和 网 格 图 的 自 定 义 面 板 函 数 
在 第 二 个 例子 中 , 我 们 将 画 出 以 汽车 变速 器 类 型 为 条 件 的 油耗 和 发 动机 排 量 (被 认为 是 连续 
型 变量 ) 之 间 的 关系 。 除 了 画 出 自动 和 手动 变速 器 发 动机 独立 的 面板 图 外 , 我 们 还 将 添加 拟 合 曲 
线 和 水 平均 值 曲 线 。 代 码 如 下 : 


代码 清单 23-3 ” 自 定 义 面板 函数 和 额外 选项 的 xyplot 


library (lattice) 
mtcarsstransmission <- factor(mtcarss$am, levels=c(0,1), 
labels=c("Automatic", "Manual")) 
































panel.smoother <- function(x, y) { 
panel.grid(h=-1, v=-1) 
panel .xyplot (x, y) 
panel.loess (x, y) 
panel.abline(h=mean(y), lwd=2, lty=2, col="darkgreen") 
} 


xyplot (mpg~displtransmission,data=mtcars, 
scales=list (cex=.8, col="red"), 
panel=panel.smoother, 
xlab="Displacement", ylab="Miles per Gallon", 
main="MPG vs Displacement by Transmission Type", 
sub = "Dotted lines are Group Means", aspect=1) 


代码 的 结果 如 图 23-4 所 示 。 
在 上 面 的 代码 中 有 几 个 地 方 需要 指出 。panel .xyplot () 也 数 画 出 了 个 别 点 ，panel. 
loess () 函数 在 每 个 面板 图 中 画 出 了 非 参数 拟 合 曲线 。panel .abline() 函数 在 调解 变量 的 每 个 
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水 平 中 添加 了 水 平 参考 线 (mpg 的 均值 )。( 如 果 你 用 h=mean (mtcarssmpg) 代 替 h=mean (y) , 在 
整个 样本 中 将 产生 以 mpg 均 值 为 基础 的 单个 参考 线 。)scales= 选 项 呈现 大 小 为 默认 字体 80% 的 红 
色 刻 度 注 释 ( 坐标 轴 数 字 和 刻度 线 )。 








MPG vs Displacement by Transmission Type 
100 200 300 400 


[| Automatic | Manual | 


Miles per Gallon 
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Displacement 
Dotted lines are Goup Means 


图 23-4 ”以 变速 器 类 型 为 条 件 的 每 加 仑 汽油 英里 数 和 发 动机 排 量 的 网 格 图 。 添 加 了 平 
滑 线 (局 部 线性 拟 合 ) 、 网 格 和 组 平均 水 平 


























在 前 面 的 例子 中 ， 我 们 使 用 scales=list(x=list()，vy=list()) 来 指定 横 轴 和 纵 轴 的 独 
立 选 项 。 想 了 解 缩放 比例 的 其 他 可 用 选项 ， 参 见 help (xyplot)。 在 下 一 节 中 ， 我们 将 学 习 如 何 
从 观测 值 的 组 中 添加 数据 ， 而 不 是 用 单独 的 面板 图 呈现 出 来 。 








23.4 “分 组 变量 


当 你 在 lattice 绘 图 公式 中 增加 调节 变量 时 , 该 变量 每 个 水 平 的 独立 面板 就 会 产生 。 如 果 想 
添加 的 结果 和 每 个 水 平 正 好 相反 ， 可 以 指定 该 变量 为 分 组 变量 。 

比方 说 , 我 们 想 利用 核 密度 图 展示 使 用 手动 和 自动 变速 器 时 汽车 油耗 的 分 布 。 我 们 可 以 使 用 
下 面 的 代码 来 添加 相应 的 图 形 : 

library (lattice) 


mtcarsstransmission <- factor(mtcarss$am, levels=c(0, 1), 
labels=c("Automatic", "Manual")) 


densityplot (~mpg, data=mtcars, 
group=transmission, 
main="MPG Distribution by Transmission Type", 
xlab="Miles per Gallon", 
auto.key=TRUE) 


结果 如 图 23-5 所 示 。 默 认 情 况 下 ，group= 选 项 添加 分 组 变量 每 个 水 平 的 图 。 点 会 被 绘制 成 空心 
圆 ， 线 为 实 线 ， 水 平 信息 用 不 同 的 颜色 表示 。 正 如 我 们 从 图 中 看 到 的 ， 当 以 灰 度 的 形式 打印 时 ， 
颜色 是 很 难 区 分 的 。 稍 后 我 们 将 学 习 如 何 改变 这 些 默 认 值 。 
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图 23-5 ”通过 变速 带 类 型 分 组 的 每 加 仑 汽油 英里 数 的 核 密度 图 。 拌 动 的 点 在 横 轴 上 表示 


值得 注意 的 是 ， 图 例 和 关键 字 不 会 在 默认 情况 下 生成 。 选 项 auto .key-TRUE 创 建 了 一 个 基 
本 的 图 例 并 把 它 放 在 图 的 上 方 。 我 们 可 以 通过 在 列表 中 指定 选项 对 自动 的 键 值 进 行 有 限 的 修改 。 
例如 ， 


auto.key=list (space="right", columns=1, title="Transmission") 
将 图 例 放 在 图 的 右 侧 ， 在 单个 列 中 呈现 关键 字 ， 并 添加 了 一 个 图 例 标 题 。 
如 果 想 对 图 例 取得 更 大 的 控制 权 ， 可 以 使 用 key= 选 项 。 下 面 给 出 了 一 个 相关 的 例子 ， 结 果 
如 图 23-6 所 示 。 


代码 清单 23-4” 带 有 分 组 变量 和 自 定 义 图 例 的 核 密度 估计 


library (lattice) 
mtcarsstransmission <- factor(mtcarss$am, levels=c(0, 1), 
labels=c("Automatic", "Manual")) 


Solores ge C0 Ee "BLUG) i 5 
指定 的 颜色 、 线 和 点 
) 















































lines <- c(1,2) 
points <- c(16,17 


key.trans <- list(title="Transmission", 
space="bottom", columns=2, 
text=list(levels(mtcarsstransmission)), 
points=list (pch=points, col=colors), 自 定 义 图 例 
lines=list (col=colors, lty=lines), 
cex.title=1, cex=.9) 





densityplot (~mpg, data=mtcars, 
group=transmission, 
main="MPG Distribution by Transmission Type", 密度 图 
xlab="Miles per Gallon", 
pch=points, lty=lines, col=colors, 
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lwd=2, jitter=.005, 
key=key .trans) 


这 里 绘图 符号 、 线 条 类 型 和 颜色 都 被 指定 为 向 量 @。 每 个 向 量 的 第 一 个 元 素 应 用 到 分 组 变 
量 的 第 一 个 水 平 中 ， 第 二 个 元 素 应 用 到 第 二 个 水 平 中 ， 以 此 类 推 。 创 建 列表 对 象 以 保存 图 例 选 
项 名 。 这 些 选 项 将 图 例 放 人 两 列 并 包含 水 平 名 称 、 点 符号 、 线 条 类 型 和 颜色 。 图 例 标 题 略 大 于 
文本 的 符号 。 
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Automatic ® 
图 23-6， 按 变速 器 类 型 分 组 的 每 加 仓 汽油 英里 数 的 核 密度 图 。 图 像 参数 已 经 更 改 ， 并 
添加 了 自 定义 的 图 例 ， 图 例 指 定 了 颜色 、 形 状 、 线 条 类 型 、 字 符 大 小 和 标题 




















相同 的 图 类 型 、 线 条 类 型 和 颜色 由 densityplot () 函数 指定 人 @。 此 外 ， 增 加 了 线条 宽度 和 
抖动 来 改善 图 形 的 外 观 。 最 后 , 键 值 被 设 定 为 使 用 之 前 定义 的 列表 。 这 种 为 分 组 变量 指定 图 例 的 
方法 给 我 们 带 来 了 极 大 的 便利 ,事实 上 ,我 们 可 以 创建 多 个 图 例 并 把 它们 放 到 图 的 不 同 区 域 中 ( 这 
里 不 再 展示 )。 

在 完成 本 节 之 前 ， 让 我 们 讨论 一 下 在 单个 图 中 包含 分 组 和 调节 变量 的 例子 。R 安 装 时 自 带 的 
C02 数据 框 描 述 了 对 Echinochloa crus-galli 耐 寒 性 的 研究 。 

这 个 数据 描述 了 12 种 植物 ( Plant ) 在 7 种 二 氧化 碳 浓度 ( conc ) 下 的 二 氧化 碳 吸收 率 
(uptake )。6 种 植物 来 自 魁 北 克 ( Quebec )，6 种 来 自 密西西比 (Mississippi )。 每 个 产地 有 3 种 植 
物 在 冷藏 条 件 下 研究 ，3 种 在 非 冷藏 条 件 下 研究。 在 这 个 例子 中 ，Plant 是 分 组 变量 ，Type ( 购 
北 克 / 密 西西 比 ) 和 Treatment (冷藏 / 非 冷藏 ) ) 是 调节 变量 。 下 面 代码 运行 的 结果 见 图 23-7。 


















































代码 清单 23-5 ” 带 有 分 组 和 调节 变量 以 及 自 定 义 图 例 的 xyplot 函 数 
library (lattice) 
Colors <- "darkgreen" 
symbols <- cl(1:12) 
linetype <- c(1:3) 


key.species <- list(title="Plant", 





space="right", 
text=list(levels (CO2s$Plant)), 
points=list (pch=symbols, col=colors)) 


xyplot (uptake~conc|Type*Treatment, data=C0O2, 
group=Plant, 
type="o", 
pch=symbols, col=colors, lty=linetype, 
main="Carbon Dioxide Uptake\nin Grass Plants", 
ylab=expression(paste ("Uptake ", 


bogqroup(t™(s Ttalte(frac( umdL™, "m2 有 本 
xlab=expression(paste("Concentration ", 

bgroup("(", italic(frac(mL,L)), ")"))), 
sub = "Grass Species: Echinochloa crus-galli", 


key=key .species) 


注意 , 这 里 使 用 \n 让 我 们 将 标题 分 成 两 行 , 使 用 expression () 函数 是 为 了 将 数学 符号 添加 
到 坐标 轴 标 签 上 。 在 这 里 ， 通 过 co1= 选 项 指定 一 组 颜色 来 对 组 进行 区 分 。 在 这 个 例子 中 ， 添 加 
12 种 颜色 矫 枉 过 正 、 使 人 分 心 ， 难 以 实现 简单 地 可 视 化 各 面板 的 关系 。 很 明显 ,在 冷藏 条 件 下 密 
西西 比 的 植物 有 显著 的 不 同 。 
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图 23-7 xyplot 展 示 了 周围 二 氧化 碳 浓度 对 两 种 处 理 条 件 和 两 种 类 型 下 12 种 植物 的 二 
氧化 碳 吸收 的 影响 。Plant 是 分 组 变量 ，Treatment 和 Type 是 调节 变量 
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到 现在 为 止 , 我 们 已 经 通过 传递 到 高 水 平 的 函数 ( 如 xyplot (pch=17) ) 或 是 面板 函数 ( 如 
panel.xyplot (pch=17) ) 的 选项 更 改 了 图 表 中 的 图 形 元 素 。 不 过 这 样 的 变化 只 在 调用 函数 时 
起 作用 。 在 下 一 节 中 ， 我 们 将 回顾 能 持续 改变 交互 式 进 程 或 批 处 理 图 形 参 数 的 方法 。 


23.5 ”图 形 参 数 


在 第 3 章 中 , 我 们 学 习 了 如 何 使 用 par () 函数 查看 并 设置 默认 的 图 形 参 数 。 尽 管 这 对 R 原 生 图 
形 系统 绘制 的 图 形 起 作用 ， 但 是 lattice 图 形 不 受 这 些 设置 的 影响 。 相 反 ， 1attice 国 数 使 用 的 
图 形 默 认 设 置 包含 在 一 个 大 的 列表 对 象 中 ， 可 以 通过 trellis.par.get() 图 数 获 得 并 通过 
trellis.par.set() 国 数 更 改 。 我 们 可 以 使 用 show.settings () 函数 来 直观 地 展示 当前 的 网 
形 设置 。 

作为 一 个 例子 ， 让 我 们 使 用 和 至 加 点 来 改变 默认 符号 〈 即 包含 一 个 组 变量 的 图 中 的 点 )。 默 认 
值 是 一 个 开 环 。 我 们 将 为 每 个 组 设置 自己 的 符号 。 

首先 ， 查 看 默认 的 设置 ; 

Show.settings () 
把 它们 保存 到 名 为 mysettings 的 列表 中 。 

mysettings <- trellis.par.get() 
我 们 可 以 使 用 names () 函数 来 查看 列表 的 成 分 : 


> names (mysettings) 















































[I] "rid. 入 "fontsize" "background" 

[4] "panel .background" "TD "add.line" 

[7] "add.text" "plot .polygon" 的 GE 

10] "box.rectangle" "box.umbrella" "dot .line" 

131 "dot Symbol "plot.line" "plot .symbol" 

16] "reference.line" "strip.background" "strip.shingle" 
19] "strip.border" "superpose.line" "superpose.symbol" 
22] "superpose.polygon" "regions" "shade.colors" 

25] "axis.line" "axis.text" "axis.components" 
28] "layout.heights" "layout .widths" "BDOxs3dn 

31] "par.xlab.text" "par.ylab.text" "par.zlab.text" 
34] "par.main.text" "par.sub.text" 











具体 到 黎 加 符号 的 默认 值 包含 在 superpose.symbol 中 : 
> mysettingsssuperpose.symbol 


salpha 

[2 

Scex 

EL O08 08 O58 O08 OB: DB: OB 

$col 

[1] "#0080ff" "#f£f00ff" "darkgreen" "#ff0000" "orange" 
[6] "#00f£f00" "brown" 
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$fi1l 

[1] "#CCFFFF" "#FFCCFF" "#CCFFCC" "#FFES5CC" "#CCE6FF" "#FFFFCC" 
[7] "#FFCCCC" 

$sfont 

|[ 汪 | 

$pch 

[1] 1111111 


分 组 变量 的 每 个 水 平 使 用 的 符号 是 开 环 (pch=1 )。 七 个 水 平 得 到 定义 之 后 ， 符 号 会 再 循环 。 
为 了 改变 默认 值 ， 声 明 语句 : 


mysettingsSsuperpose.symbolspcnh <- c(1:10) 
trellis.par.set (mysettings) 


可 以 再 次 使 用 show .settings () 消 数 来 查看 改动 的 影响 。lattice 图 形 使 用 符号 1 ( 开 环 ) 代表 
分 组 变量 的 第 一 个 水 平 ， 使 用 符号 2( 开 三 角 ) 代表 分 组 变量 的 第 二 个 水 平 ， 以 此 类 推 。 此 外 ， 
符号 以 被 定义 为 10 个 级 别 的 分 组 变量 ， 而 不 是 7 个 。 在 图 形 设备 关闭 之 前 ， 这 些 变化 是 一 直 起 作 
用 的 。 我 们 可 以 使 用 这 种 方法 来 改变 任意 的 图 形 设置 。 


23.6 ” 自 定义 图 形 条 带 


面板 条 带 默认 的 背景 是 : 第 一 个 调节 变量 是 桃红 色 , 第 二 个 调节 变量 是 浅 绿色 , 第 三 个 调节 
变量 是 浅 蓝 色 。 令 人 高 兴 地 是 , 我 们 可 以 自 定 义 颜色 、 字 体 和 这 些 条 带 的 其 他 方面 。 我 们 可 以 使 
用 上 一 节 描 述 的 方法 ; 或 是 加 强 控制 ， 写 一 个 自 定义 条 带 各 方面 的 函数 。 

让 我 们 先 从 条 带 函 数 开始 。 正 如 lattice 中 的 高 水 平 图 形 函 数 允 许 我 们 通过 控制 每 个 面板 的 
内 容 指 定 一 个 面板 函数 一 样 ， 条 带 函 数 可 以 自 定 义 条 带 的 方方面面 。 

请 看 如 图 23-1 所 示 的 曲线 图 。 该 图 展示 了 按 声 部 划分 的 纽约 合唱 团 歌 手 的 身高 。 图 形 的 背景 
是 桃红 色 (抑或 是 粉 橙色 )。 如 果 想 让 条 带 变 成 浅 灰 色 ， 条 带 的 文本 变 成 黑色 ， 字 体 变 成 斜体 并 
缩小 20% 该 怎么 办 ? 我 们 可 以 使 用 下 面 的 代码 来 实现 : 

library (lattice) 

histogram(~height | voice.part, data = singer, 

strip = strip.custom(bg="lightgrey", 
par.strip.text=list(col="DLlack"; eex=.,8, "£0nt=3)); 


main="Distribution of Heights by Voice Pitch", 
xlab="Height (inches)") 


结果 如 图 23-8 所 示 。 

option= 选 项 用 来 指定 设 定 条 带 外 观 的 函数 。 尽 管 我 们 可 以 从 头 写 一 个 函数 ( 参 
见 ?strip.default ), 但 是 改变 一 些 设置 并 使 用 其 他 项 的 默认 值 更 加 简单 。strip.custom() 
函数 可 以 让 我 们 实现 这 个 功能 。bg 选 项 控制 了 背景 颜色 , par .strip.text 人 允许 我 们 控制 条 带 文 
本 的 外 观 。 

par.strip.text 选 项 使 用 一 个 列表 去 定义 文本 属性 。col 和 cex 控 制 文本 的 颜色 和 大 小 。 
font 选 项 可 以 分 别 取 数值 |、2、3 和 4， 代 表 正 常 字体 、 粗 体 、 斜 体 和 粗 斜 体 。 





































































































| 











504 第 23 章 使 用 1attice 进行 高 级 绘图 





Distribution of Heights by Voice Pitch 






Alto1 


Percent of Total 


Height (inches) 





图 23-8 ”定制 化 条 带 的 网 格 图 ( 浅 灰 色 背 景 ， 小 字 斜 体 ) 





strip= 选 项 改变 了 给 定 图 中 条 带 的 外 观 。 要 改变 一 个 R 会 话 中 所 有 lattice 图 形 的 外 观 , 我 
们 可 以 使 用 上 一 节 使 用 的 图 形 参数 。 代 码 : 
mysettings <- trellis.par.get() 


mysettingssstrip.backgrounds$col <- c("lightgrey", "lightgreen") 
trellis.par.set (mysettings) 


设 定 了 条 带 的 背景 , 其 中 第 一 个 条 件 变 量 是 浅 灰 色 , 第 二 个 是 浅 绿 色 。 该 更 改 在 会 话 的 剩余 部 分 
仍然 起 作用 , 或 是 到 设置 再 次 更 改 后 才 失 效 。 使 用 图 形 参数 更 方便 一 些 , 但 是 使 用 条 带 函 数 给 了 
我 们 更 多 选项 和 更 强 的 控制 权 。 


23.7 页面 布局 


在 第 3 章 中 ， 我 们 学 会 了 如 何 使 用 par () 函数 把 多 个 图 放 在 一 个 页 面 上 。 因 为 1attice 函 数 
不 能 辨认 par () 函数 设置 ， 所 以 我 们 需要 换 一 种 方法 将 这 些 lattice 图 形 绘制 在 一 个 单独 的 图 
中 。 最 简单 的 方法 是 把 1attice 图 形 保存 成 对 象 并 使 用 带 有 split= 或 position= 选 项 的 plot () 
函数 来 保存 成 单个 图 片 。 

sp1 让 选项 将 一 个 页 面 分 成 指定 数量 的 行 和 列 , 并 把 图 放 到 结果 矩阵 的 特定 单元 格 中 。split 
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选项 的 格式 是 : 
SHELIC=G(X; YY "nx my) 


也 就 是 说 在 包括 nx 乘 ny 个 图 形 的 正规 数组 中 ， 把 当前 图 形 放 在 x，y 的 位 置 ， 图 形 的 起 始 位 置 是 
左上 角 。 例如， 下 面 的 代码 : 
library (lattice) 

graphl <- histogram(~height | voice.part, data = singer, 

main = "Heights of Choral Singers by Voice Part" ) 

graph2 <- bwplot (height~voice.part, data = singer) 

loti(gqraphls splLit = (LT; 1 2 

plot (graph2, split = c(1, 2, 1, 2), newpage = FALSE) 
将 第 一 幅 图 直接 放 在 第 二 幅 图 的 上 面 。 具体 来 说 , 第 一 个 plot () 语 句 将 页 面 分 成 了 一 列 (nx=1 ) 
和 两 行 (ny=2 ) 并 把 图 放置 在 第 一 行 第 一 列 (顺序 是 从 上 到 下 ， 从 左 到 右 )。 第 二 个 plot () 语 句 
用 同样 的 方式 划分 页 面 , 但 是 把 图 放 在 了 第 一 列 第 二 行 。plot () 函数 默认 从 一 个 新 的 页 面 开始 ， 
可 以 通过 newpage=FALSE 选 项 抑制 新 的 页 面 产生 。 结 果 如 图 23-9 所 示 。 


Heights of Choral Singers by Voice Part 
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图 23-9 ”使 用 split 选 项 合并 图 形 


我 们 可 以 使 用 position= 选 项 更 好 地 控制 尺寸 和 位 置 。 请 看 下 面 的 代码 : 


library (lattice) 
graphl <- histogram(~height | voice.part, data = singer, 
main = "Heights of Choral Singers by Voice Part") 
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graph2 <- bwplot (height~voice.part, data = singer) 
plot (graphl, position=c(0, .3, 1, 1)) 


plot (graph2, position=c(0, 0, 1, .3), newpage=FALSE) 





这 里 的 position=c (xmin，ymin，xmax，ymax) 选项 中 ， 页 面 的 坐标 系 是 x 轴 和 y 轴 都 从 0 到 1 
的 和 矩形， 原点 在 左下 角 的 (0, 0)。 结 果 如 图 23-10 所 示 。 了 解 更 多 关于 放置 图 形 的 信息 ， 可 以 查看 


help (plot.trellis)。 
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图 23-10 ”使 用 positon 选 项 使 图 形 合并 更 加 精确 





我 们 也 可 以 改变 lattice 图 中 面板 的 顺序 。 在 高 水 平 1attice 图 像 函数 中 的 index.cond 选 


项 能 指定 调节 变量 水 平 的 顺序 。 对 于 voice .part 因 子 来 说 ,水 平 是 : 








> levels (singer$voice.part) 


[1 “Bass 2" "Bass 1" "Tenor 2" "Tenor 1" "Alto 2" 
[在 | LE "opraund 2 "Oopraus" 1” 
使 用 信息 2 


histogram(~height | voice.part, data = singer, 
index.cond=list(c(2, 4, 6, 8, 1; 3, 5, 7))) 


可 以 把 声 部 1 放 在 一 起 (Bass 1 、Tenor 1…… )， 接 着 是 声 部 2 ( Bass 2、Tenor 2……: )。 当 有 两 个 
调节 变量 时 ， 在 列表 中 包含 两 个 向 量 。 在 代码 清单 23-5 中 ,添加 index.cond=1list (c(1，2)， 
c(2，1)) 将 让 图 23-7 中 处 理 条 件 的 顺序 反 过 来 。ingex.cond 选 项 的 详细 信息 可 以 通过 























help(xyplot) 了 解 。 
23.8 深入 学 习 

在 R 中 ，1attice 提 供 了 高 度 自 定义 的 强大 方法 来 创建 图 形 。 大 量 有 用 的 资源 可 以 帮助 我 们 
学 到 更 多 。Deepayan Sarkar 的 “Lattice Graphics: An Introduction”( http:/mng.bzjXUG ，2008 ) 和 
William G. Jacoby 的 “An Introduction to Lattice Graphics in R”( http://mng.bz/v4TO，2010 ) 提供 了 


精彩 的 概述 。Sarkar ( 2008 ) 的 Lattice: Multivariate Data Visualization with R 是 关于 这 个 主题 的 权 
威 图 书 。 














你 是 不 是 拿 到 书 首先 就 翻 到 这 里 来 了 ?” 默认 情况 下 ，R 只 提供 了 一 个 简单 的 CLI ( Command 
Line Interface， 命 令 行 界面 )。 用 户 在 命令 行 提示 符 ( 默认 是 > ) 后 面 输入 命令 ， 每 次 执行 一 个 命 
令 。 对 于 很 多 数据 分 析 师 而 言 ，R 的 命令 行 界面 是 最 大 的 一 个 缺点 。 

现在 已 经 有 了 不 少 R 的 图 形 界面 , 包括 跟 R 交 互 的 代码 编辑 器 ( 例如 RStudio )、 特定 软件 包 或 
函数 的 GUI ( 例如 BiplotGUI ), 以 及 用 户 可 以 通过 菜单 和 对 话 框 完成 数据 分 析 的 完整 GUI ( 例如 R 
Commander )。 


表 A-1 中 列 出 了 一 些 比 较 有 用 的 代码 编辑 器 。 
表 A-1 集成 开发 环境 和 语法 编辑 器 
















































































名 称 链 接 
RStudio http://www.rstudio.com/products/RStudio 
带 StatET 插 件 的 Eclipse http:Wwww.eclipse.org 和 http:/www.walware.de/goto/statet 
Architect http://www.openanalytics.eu/architect 
ESS (Emacs Speaks Statistics) http://ess.r-project.org 
JGR http://jgr.markushelbig.org/JGR.html 
Tinn-R (只 适用 于 Windows) http://nbcgib.uesc.br/lec/software/editores/tinn-r/en 
带 NppToR 插 件 的 Notepad++ (只 支持 Windows) http://notepad-plus-plus.org/ 和 http://sourceforge.net/projects/npptor 








表 A-1 中 的 代码 编辑 器 可 用 于 编辑 和 执行 R 代 码 ， 功 能 包括 语法 高 亮 、 命 令 补 全 、 对 象 浏览 、 
项 目 管理 和 在 线 帮 助 。 图 A-1 是 RStudio 的 截图 。 
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> library(multcomp) 月 zoom 再 bpen 日 dourh 


Loading required package: mvtnone 
Loading required package: survival 
Loading required package: splines 95% family-wise confidence level 
Loading required package: TH.data 

> fit <- aov(response ~ trt, data=cholesterol) 
> summary(fit) 
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图 A-1 RStudio IDE 


表 A-2 中 列 出 了 一 些 成 熟 的 RGUI。 跟 SAS 和 IBM SPSS 的 GUI 相 比 ， 这些 GUI 的 功能 没有 那么 
富 ， 也 没有 那么 成 熟 ， 但 是 它们 发 展 很 快 。 


表 A-2 R 的 全 功能 GUI 
名 称 链 接 
































JGR/Deducer http://www.deducer.org 

R AnalyticFlow http://www.ef-prime.com/products/ranalyticflow_en 
Rattle (用 于 数据 挖掘 ) http://rattle.togaware.com 

R Commander http://socserv.mcmaster.ca/jfox/Misc/Remdr 
Rkward http://rkward.sourceforge.net 





在 统计 学 入 门 课程 中 ， 我 最 喜欢 的 R GUI 是 R Commander ( 见 图 A-2 )。 
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RR Commander ejay 
Hle Edit Data [Statistics| Graphe Models Distributions Tools Help 
BR pet Smmanc BViewdataset] Modet| = RegModell1 


RScript RMarkdl 。 Means 
ldata (CO2) | Proportions 


IRegModeli.1| Variances » 
[summary (Regt 



















: data = CO2) 


Dimensional analysis * 
a a 
Linear model- 
| Generalized linear model- 
| Muitinomial logit model- 

， Ordinal regression model.. 


Call: 
lm(formula = uptake ~ conc, data = CO2) 


Residuals: 
Min 18 Median 38 Max 
-22.83 =7.73 1.48 7.75 16.39 


coefficients:; 

Estimate Std, Error 5 Value Pr(>Itl) 
(TIntercept) 19.50029 1.85308 10.52 < 2e-16 sos 
conc 0.01773 0.00353 5.02 2.9e-06 s** 


Signif. codes: 0 "wes 0.001 ‘ex: 0.01 *** 0.05 .+ 0.1'1 


Residual standard error: 9.51 on 82 degrees of freedom 
Mulriple R-squared: 0.235, Adjusted R-squared: 0.226 
F-statistic: 25.2 on 1 and 82 DEF, p-value: 2.91e-06 








Messages 
ith the single-docunent interface (SDI); see ?Commander. 
[3] NOTE: The dataset CO2 has 84 rows and 5 columns- 导 




















图 A-2 R Commander GUI 


最 后 要 介绍 的 是 一 些 用 于 给 R 函 数 (包括 用 户 自己 写 的 函数 ) 创建 GUI 的 程序 。 这 类 程序 有 R 
GUI Generator ( RGG， 参 见 http://rgg.r-forge.r-project.org ) 和 CRAN 上 的 fgui 和 twiddqler 包 。 目 
前 最 全 面 的 方法 是 shiny( http://shiny.rstudio.com/ ), 它 可 以 帮 你 轻松 创建 能 够 与 R 函 数 互动 的 Web 
应 用 程序 。 





自 定义 启动 环境 


























程序 员 最 喜欢 做 的 一 件 事情 就 是 根据 自己 的 工作 习惯 自 定义 启动 环境 。 通 过 自 定 义 启 动 环境 
可 以 设置 R 选 项 ， 设 置 工作 目录 ， 加 载 常 用 的 包 ， 加 载 用 户 编写 的 函数 ， 设 置 默认 的 CRAN 下 载 
网 站 以 及 执行 其 他 各 种 常见 任务 。 

读者 可 以 通过 站 点 初始 化 文件 (Rprofile.site ) 或 目录 初始 化 文件 (.Rprofile ) 自 定义 了 的 环 
境 。R 在 启动 时 会 执行 这 几 个 文本 文件 中 的 代码 。 

在 启动 时 ，R 会 加 载 R_ HOME/etc 目 录 中 的 Rprofile.site 文 件 ， 其 中 R_HOME 是 一 个 环境 变量 。 
然后 R 会 在 当前 目录 中 寻找 .Rprofile 文 件 。 如 果 R 没 有 在 当前 目录 中 找到 这 个 文件 , 它 就 会 到 用 户 
的 主 目录 中 去 寻找 。 可 以 通过 syvs .getenv("R_HOME") 、Sys.g9etenv(" HOME " ) 和 getwd () 来 
分 别 确认 R_HOME、HOME 和 当前 工作 目录 。 

可 以 在 这 些 文件 中 放 入 两 个 特殊 函数 。 每 个 R 会 话 开始 时 都 会 执行 .First () 函数 ， 会 话 结 
束 时 都 会 执行 .Last () 函数 。 代 码 清单 B-1 中 是 一 个 Rprofile.site 文 件 的 例子 。 


代码 清单 B-1 Rprofile.site 文 件 示例 


options (papersize="a4") 
options (editor="notepad") 
options (tab.width = 2) 
options (width = 130) 设置 常用 选项 
( 
( 



























































options (digits=4) 

options (stringsAsFactors=FALSE) 

options (show.signif.stars=FALSE) 

grDevices::windows.options (record=TRUE) 

ODtLONnS (DromBts"S ™) 

options (continue="+ ") | 设置 R 交 互 提示 符 

人 .libPaths("C:/my_R_library") 

地 库 路 local({r <- getOption ("repos") 

径 r["CRAN"] <- "http://cran.case.edu/" 
options (repos=r)}) 








设置 默认 的 CRAN 镜 像 





Eirst < funetiom(yt 

library (lattice) 

library (Hmisc) 

source("C:/mydir/myfunctions.R") 启动 函数 
cat("\nWelcome at", date(), "\n") 


512 附录 B 自 定义 启动 环境 





.Last <- function(){ 
cat ("\nGoodbye at ", date(), "\n") 会 话 结束 函数 
} 


这 个 文件 中 有 以 下 几 点 需要 提醒 大 家 注意 。 

口 设置 . 1ibPaths 值 可 以 为 R 目 录 树 之 外 的 扩展 包 创建 一 个 本 地 库 。 这 可 以 用 于 在 升级 时 保 
持 某 个 扩展 包 不 变 。 

口 设置 默认 的 CRAN 镜 像 就 不 必 在 每 次 执行 instal1.packages () 命令 时 都 选择 镜像 了 。 

口 .First() 函数 中 可 以 加 载 你 常用 的 库 ， 也 可 以 加 载 保存 自己 编写 的 常用 函数 的 源 代码 
































文件 。 
口 .Last () 函数 中 可 以 执行 某 些 清 理 操作 ， 包 括 保存 命令 历史 记录 、 保 存 程序 输出 和 保存 
数据 文件 等 。 





还 有 自 定 义 启 动 环境 的 一 些 其 他 方法 ， 包 括 使 用 命令 行 选 项 和 环境 变量 。 详 见 
help(Startup) 和 “Introduction to R” 手 册 的 附录 B ( http://cran.r-project.org/doc/manuals/ 
R-intro.pdf )。 


从 R 中 导出 数据 








在 第 2 章 中 ,我 们 介绍 了 各 种 将 数据 导入 R 的 方法 。 但 有 时 候 你 可 能 要 做 相反 的 事情 一 一 把 R 
中 的 数据 导出 去 一 一 以 实现 数据 的 保存 或 者 是 在 外 部 程序 中 使 用 。 在 本 附录 中 , 你 会 学 到 如 何 将 
R 的 对 象 输出 到 符号 分 隔 的 文本 文件 、Excel 电 子 表格 或 者 其 他 统计 学 程序 (例如 SPSS、SAS 和 
Stata )。 


C.1 符号 分 隔 文本 文件 
可 以 用 write.table() 子 数 将 R 对 象 输出 到 符号 分 隔 文 件 中 。 函 数 使 用 方法 是 : 


write.table(x, outfile, sep=delimiter, quote=TRUE, na="NA") 
其 中 x 是 要 输出 的 对 象 ，out file 是 目标 文件 。 例如， 这 条 语句 : 

write.table(mydata, "mydata.txt", sep=",") 

会 将 myqaata 数 据 集 输出 到 当前 目录 下 逗号 分 隔 的 mydatatxt 文 件 中 。 用 路 径 〈 例 如 
c:/myprojects/mydata.txt ) 可 以 将 输出 文件 保存 到 任何 地 方 。 用 sep="\t "替换 sep=","， 数 据 就 
会 保存 到 制 表 符 分 隔 的 文件 中 。 默 认 情 况 下 ， 字符 串 是 放 在 引号 ("" ) 中 的 ,缺失 值 用 NA 表示 。 


C.2 Excel 电子 表格 
xlsx 包 中 的 write.xlsx() 函数 可 以 将 R 数 据 框 写 和 人 到 Excel 2007 文 件 中 。 使 用 方法 是 : 


library (xlsx) 
write.xlsx(x, outfile, col.Names=TRUE, row.names=TRUE, 
sheetName="Sheet 1", append=FALSE) 


例如 ， 这 条 语句 : 


library (xlsx) 
write.xlsx(mydata, "mydata.xlsx") 


会 将 mydata 数 据 框 保存 到 当前 目录 下 的 Excel 文 件 mydata.xlsx 的 工作 表 ( 默认 是 sheet 1 ) 中 。 默 
认 情 况 下 ,数据 集中 的 变量 名 称 会 被 作为 电子 表格 头 部 , 行 名 称 会 放 在 电子 表格 的 第 一 列 。 函 数 
会 覆盖 已 存在 的 mydata.xlsx 文 件 。 
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xlsx 包 是 一 个 操作 Excel 2007 文 件 的 强大 工具 ， 详 见 该 扩展 包 的 文档 。 


C.3 统计 学 程序 


foreign 包 中 的 write.foreign() 可 以 将 数据 框 导出 到 外 部 统计 软件 。 这 会 创建 两 个 文件 ， 
一 个 是 保存 数据 的 文本 文件 ， 另 一 个 是 指导 外 部 统计 软件 导入 数据 的 编码 文件 。 使 用 方法 如 下 ; 
write.foreign(dataframe, datafile, codefile, package=package) 
例如 ， 下 面 这 段 代码 : 


library (foreign) 
write.foreign(mydata, "mydata.txt", "mycode.sps", package="SPSS") 


会 将 mydata 数 据 框 导出 到 当前 目录 的 纯 文本 文件 mydata.txt 中 ， 同 时 还 会 生成 一 个 用 于 读 取 该 文 
本 文件 的 SPSS 程 序 mycode.sps。Ppackaoe 参 数 的 其 他 值 有 "SAs" 和 "Stata"。 

关于 从 R 中 导出 数据 的 更 多 信息 可 以 参见 “R Data ImporVExport” 文 档 : http://cran.r-project. 
org/doc/manuals/R-data.pdf。 






































R 中 的 和 矩阵 运算 








本 书 介绍 的 很 多 函数 都 是 操作 矩阵 的 。 对 矩阵 的 操作 已 经 深 深 地 扎根 于 R 语 言 中 。 表 D-1 中 
介绍 了 对 解决 线性 代数 问题 非常 重要 的 运算 符 和 函数 。 在 表 D-1 中 ，2 和 B 是 矩阵 ，x 和 bb 是 向 量 ， 


三 | 
x 是 标量 。 















































表 D-1 用 于 矩阵 代数 的 R 函 数 和 运算 符 
运算 符 或 函数 描 述 
Ea 分 别 是 逐个 元 素 的 加 、 减 、 乘 、 除 和 客运 算 
A s*sB 和 矩阵 乘法 
A gog B 外 积 : AB' 
cbind(A, B, ...) 横向 合并 算 阵 或 向 量 
chol (A) 和 的 Choleski 分 解 。 若 R <- chol (A) ， 那 么 chol (A) 包 含 上 三 角 因子 ， 即 R'R=A 





colMeans (A) 


可 A 的 列 均值 组 成 的 向 量 


DIA'A 








crossprod (A) 





































































































crossprod(A, B) A'B 

colSums (A) 可 A 的 列 总 和 组 成 的 向 量 

diag (A) 可 主 对 角 元 素 组 成 的 向 量 

diag (x) 用 x 中 元 素 作 为 主 对 角 元 素 创 建 对 角 和 矩阵 

Qiag (K) 如 果 k 是 标量 ， 就 创建 k x k 的 单位 矩阵 

eigen (A) & 的 特征 值 和 特征 向 量 。 若 > <- eigen (A) ， 那 么 : 
“y$val 是 A 的 特征 值 
“ys$vec 是 A 的 特征 向 量 

ginv (A) A 的 Moore-Penrose 广 闵 逆 (需要 MASS 包 ) 

qr (A) A 的 QR 分 解 。 若 y <- qr (A)， 那 么 : 
“ys$qr 的 上 三 角 是 分 解 结果 ， 下 三 角 是 分 解 的 信息 
“y$rank 是 A 的 秩 


.ysaraux 是 Q 的 附加 信息 向 量 

.yspivot 是 所 使 用 的 主 元 素 选 择 策略 

纵向 合并 矩阵 或 向 量 
rowMeans (a) 返回 A 的 行 均值 组 成 的 向 量 

















blind tA, vB tem) 

























































































516 附录 D R 中 的 矩阵 运算 
( 续 ) 
运算 符 或 函数 描述 
rowSums (A) 返回 A 的 行 总 和 组 成 的 向 量 
solve (A) A 的 逆 ， 其 中 A 是 方 矩 阵 
solve (A, b) 求解 方程 b = Ax 中 的 向 量 x 
svd (A) A 的 奇异 值 分 解 。 若 y <- sva (A) ， 那 么 : 
。y$d 是 A 的 奇异 值 组 成 的 向 量 
“ys$u 是 矩阵 且 每 一 列 都 是 A 的 左 奇异 向 量 
“ysv 是 矩阵 且 每 一 列 都 是 A 的 右 奇异 向 量 
t (A) A 的 转 置 
还 有 几 个 用 户 贡 献 的 用 于 和 矩阵 代数 的 包 。mat1lab 包 中 的 包装 器 函数 和 变量 尽 可 能 模拟 
MATLAB 的 函数 调用 。 这 些 函数 可 用 于 将 MATLAB 程 序 和 代码 移植 到 R。 还 有 es 


令 转 换 成 R 命 令 的 速 查 卡 (http://mathesaurus.sourceforge.net/octave-r.html )。 


Matrix 包 中 的 函数 使 得 R 可 以 处 理 高 密度 矩阵 


Linear Algebra Subroutines )、Lapack ( 密集 矩阵 )、TAUCS ( 稀 玻 算 阵 ) 和 UMFPACK ( 稀 踊 
和 矩阵 )。 


最 后 是 matrixstats 包 ， 其 中 提供 























或 稀 玻 矩阵。 可 以 高 效 的 访问 BLAS ( Basic 


了 操作 和 矩阵 中 行 和 列 的 方法 ， 包 括 计数 、 求 和 、 乘 积 


居中 趋势 (central tendency )、 离 散 度 等 的 计算 函数 。 这 里 的 每 一 个 方法 都 在 速度 和 内 存 效率 上 进 


行 了 优化 。 


本 书 中 用 到 的 扩展 包 























R 正 是 因为 有 着 大 量 开 发 人 员 的 无 私 贡献 才 变 得 无 所 不 能 、 强 大 有 异常 。 表 E-1 中 列 出 了 本 书 中 
介绍 过 的 扩展 包 ， 以 及 它们 出 现在 哪些 草 。 


表 E-1 本 书 中 用 到 的 扩展 包 































































































扩 展 包 作 者 描 述 章 
AER Christian Kleiber 和 Achim Zeileis Christian Kleiber 和 Achim Zeileis 扎 13 
写 的 4pplied Econometrics with R— 
书 中 的 函数 、 数 据 集 、 例 子 、 演 示 
和 简介 
Amelia James Honaker、Gary King 和 Matthew Blackwell Amelia IT， 一 个 通过 多 重 插 补 处 理 。” 18 
缺失 值 的 程序 
arrayImpute Eun-kyung Lee、 Dankyu Yoon 和 Taesung Park 用 于 处 理 微 阵列 数据 中 缺失 值 的 包 。 18 
arrayMiss- Eun-kyung Lee 和 Taesung Park 微 阵列 数据 中 缺失 模式 的 探索 分 析 18 
A 
boot S$ 版 最 初 是 Angelo Canty 开 发 的 。R 版 是 Brian ”bootstrap 函 数 12 
Ripley 开 发 的 
ca Michael Greenacre 和 Oleg Nenadic 简单 、 多 元 、 联 合 对 应 分 析 
Ca John Fox 和 Sanford Weisberg 应 用 回归 分 析 配 套 材料 | SS 
10、11、 
19、22 
cat Ted Harding 和 Fernando Tusell 将 其 移植 到 R。 最 “” 带 缺失 值 的 类 别 型 变量 数据 集 分 析 15 
初 由 Joseph L. Schafer 开 发 
coin Torsten Hothorn、Kurt Hornik、Mark A. van de ”置换 检验 框架 中 的 条 件 推断 函数 12 
Wiel 和 Achim Zeileis 
corrgram Kevin Wright 绘制 相关 图 11 
corrperm Douglas M. Potter 带 重 复 测量 的 相关 性 置换 检验 12 
doBy Spren Hojsgaard 开 发 ， Kevin Wright 和 ” 分 组 计算 摘要 统计 量 、 广 义 线性 对 7 
Alessandro A. Leidi 也 作出 了 贡献 比 及 其 他 工具 
doParallel Revolution Analytics 公 司 ，Steve Weston parallel 包 的 foreach 并 行 适 20 
配器 
effects John Fox 和 Jangman Hong 线性 、 广 义 线性 、mnultinomial-logit 8、9 








以 及 proportional-odds logit 模 型 的 
效果 显示 


























































































































































































































518 ”附录 本 书 中 用 到 的 扩展 包 
( 续 ) 
扩 展 包 作 者 描 述 章 
FactoMineR Francois Husson、Julie Josse、Sebastien Le 和 了 中 的 多 元 探索 分 析 和 数据 挖掘 14 
Jeremy Mazet 
FAiR Ben Goodrich 用 遗传 算法 进行 因子 分 析 14 
fCalendar Diethelm Wuertz 和 Yohan Chalabi 时 序 对 象 (chronological object) 和 4 
日 历 对 象 的 相关 函数 
flexclust Friedrich Leish 和 Evgenia Dimnitriadou 灵活 的 聚 类 算法 16 
forecast Rob J. Hyndman 开 发 ，George Athanasopoulos、 用 于 展示 与 分 析 单 变量 时 间 序 列 15 
Slava Razbash、Drew Schmidt、Zhenyu Zhou、 预测 的 方法 和 工具 , 包括 通过 状态 
Yousaf Khan、Christoph Bergemeir 和 Earo Wang ”空间 模型 实现 指数 平滑 和 自动 
也 作出 了 贡献 ARIMA 建 模 
foreach Revolution Analytics 公 司 ，Steve Weston R 的 foreach 循 环 结构 20 
foreign R 核 心 成 员 Saikat DebRoy、Roger Bivand 等 人 读 取 Minitab、S、 SAS. SPSS, Stata、 2 
Systat 、dBase 等 其 他 软件 存储 的 
数据 
gclus Catherine Hurley 聚 类 图 形 1、 11 
ggplot2 Hadley Wickam 图 形 语 法 的 实现 19、20 
glmPerm Wiebke Werft 和 Douglas M. Potter 广义 线性 模型 中 用 于 推断 的 置换 ”12 
检验 
gmodels Gregory R. Warnes。 包 含 Ben Bolker、Thomas 各 种 用 于 模型 拟 合 的 R 编 程 工具 7 
Lumley 和 Randall C Johnson 贡 献 的 R 源 代码 和 
文档 。 其 中 Randall C. Johnson 的 贡献 属 
SAIC-Frederick 公 司 版 权 所 有 (2005) 
gplots Gregory R. Warnes。 包 含 Ben Bolker、Lodewijk ”各 种 绘制 图 形 的 R 编 程 工具 6、9 
Bonebakker、Robert Gentleman 、Wolfgang Huber 
AndyLiaw、Thomas Lumley、Martin Maechler、 
Arni Magnusson 、Steffen Moeller、Marc Schwartz 
和 Bill Venables 贡 献 的 R 代 码 和 文档 
grid Paul Murrell 重 写 了 图 形 布局 功能 , 还 提供 了 交 19 
互 功能 
gridExtra Baptiste Auguie 用 于 栅 格 图 形 的 函数 19 
gvlma Edsel A. Pena 和 Elizabeth H. Slate 线性 模型 假设 的 全 局 检验 8 
rhdf5 Bernd Fisher 和 Gregoire Paue NCSA HDF5 库 的 接口 2 
roxygen2 Hadley Wickham 类 似 Doxygen 的 内 源 文档 系统 21 
hexbin Dan Carr 开 发 ， 由 Nicholas Lewin- Koh 和 Martin ”绘制 六 边 形 箱 图 的 函数 11 
Maechler 移 植 
HH Richard M. Heiberger Heiberger 和 Holland 的 Statistical 9 
Analysis and Data Display 一 书 的 配 
套 软件 
kernlab Alexandros Karatzoglou 、Alex Smola 和 Kurt 基于 内 核 的 机 器 学 习 实 验 室 17 
Hornik 
knitr Yihui Xie 在 R 中 用 于 生成 动态 报告 的 通用 包 22 
Hmisc Frank E. Harrell Jr.， 以 及 很 多 其 他 用 户 的 贡献 Harrrell 的 各 种 用 于 数据 分 析 、 高 级 2、3、7 























绘图 、 实 用 操作 的 











国 数 































































































































































































附录 已 本 书 中 用 到 的 扩展 包 “519 
( 续 ) 
扩展 包 作 者 描述 章 
kmi Arthur Allignol 竞争 风险 中 用 于 累积 发 生 国 数 ”18 
分 析 的 Kaplan-Meier 多 元 播 补 
(imputation ) 
lattice Deepayan Sarkar Lattice 图 形 19 
lavaan Yves Rosseel 凌 变 量 模 型 的 相关 函数 , 包括 验 14 
证 性 因子 分 析 、 结 构 方程 建 模 和 
潜 增长 曲线 模型 等 
lcda Michael Buecker 凌 分 类 判别 分 析 14 
leaps Thomas Lumley, 用 到 了 Alan Miller 的 Fortran 代 码 ” 回归 子 集 选 择 ， 包 括 穷 举 搜索 8 
lmperm Bob Wheeler 线性 模型 的 置换 检验 12 
logregperm Douglas M. Potter 逻辑 回归 中 推断 的 置换 检验 12 
longitudinalData Christophe Genolini 用 于 纵向 数据 分 析 的 工具 18 
lsa Fridolin Wild 潜 语义 分 析 14 
ltm Dimitris Rizopoulos 项 目 反 应 理论 (item response 14 
theory) 中 的 潜在 特质 模型 (latent 
trait model) 
lubridate Garrett Grolemund 和 Hadley Wickham 用 于 识别 和 解析 日 期 、 时 间 数 据 ”4 
的 函数 ， 可 以 抽取 和 修改 日 期 和 
时 间 ， 对 日 期 和 时 间 做 精确 的 运 
算 ， 还 可 以 处 理 时 区 和 夏 时 制 
(Daylight Savings Time) 
MASS 最 初 S 语 言 的 版 本 由 Venables 和 Ripley 开 发 ， 由 Venables 和 Ripley 撰 写 的 Modern 4、5、 
Brian Ripley 在 Kurt Hornik 和 Albrecht Gebhardt 的 ”Applied Statistics with S 第 四 版 的 ”7、8、 
工作 基础 之 上 将 其 移植 到 R 配套 函数 和 数据 集 9、 12 
mlogit Yves Croissant 估计 多 项 logit 模 型 (multinomial ”13 
logit model) 
multcomp Torsten Hothorn 、 Frank Bretz Peter Westfall 、 参数 模型 中 的 常见 线性 假设 的 9、12 
Richard M. Heiberger、 和 Andre Schuetzenmeister ”同时 检验 和 置信 区 间 计 算 , 包括 
线性 、 广 义 线性 、 线 性 混合 效应 
和 生存 模型 
mvnmle Kevin Gross，Douglas Bates 提 供 了 帮助 带 缺 失 值 的 多 元 正 态 数据 的 ML 18 
估计 
mvoutlier Moritz Gschwandtner 和 Peter Filzmoser 基于 稳健 方法 的 多 元 异常 值 9 
检测 
NbClust Malika Charrad、Nadia Ghazzali、Veronique Boiteau “对 确定 聚 类 数目 的 索引 进行 ”16 
和 Azam Niknafs 检查 
Ncdf、 ncdf4 David Pierce Unidata netCDF 数 据 文件 的 接口 ”2 
nFactors Gilles Raiche he Ei 和 二 分 析 和 非 ”14 
图 形 解决 方案 
OpenMx Steven Boker、Michael Neale、Hermine Maes、 高 级 结构 方程 建 模 14 


Michael Wilde. Michael Spiegel, Timothy R. Brick、 
Jeffrey Spies 、 Ryne Estabrook、Sarah Kenny 、 
Timothy Bates、Paras Mehta 和 John Fox 

























































































































































































520 ”附录 本 书 中 用 到 的 扩展 包 
( 续 ) 
扩 展 包 作 者 描 述 章 
odfWeave Max Kuhn 开 发 ，Steve Weston、Nathan Coulter、 Open Document Format (ODF) 22 
Patrick Lenon、Zekai Otles 以 及 R Core Team 也 作出 文件 的 Sweave 处 理 
了 贡献 
pastecs Frederic Ibanez、Philippe Grosjean 和 Michele Etienne ”用 于 时 空 生态 数据 分 析 的 包 
party Torsten Hothorn、 Kurt Hornik、Carolin Strobl 和 Achim 用 于 递归 分 区 的 实验 室 17 
Zeileis 
PoOLCA Drew Linzer 和 Jeffrey Lewis 多 分 类 变量 的 湾 类 别 分 析 14 
psych William Revelle 用 于 心理 、 心 理 测评 和 个 性 研究 7、14 
pwr Stephane Champely 功效 分 析 的 基本 函数 10 
acc Luca Scrucca 质量 控制 图 表 13 
randomLCA Ken Beath 随机 效应 潜 类 别 分 析 14 
randomForest 最 初 的 Fortran 版 本 由 Leo Breiman 和 Adele Cutler 开 Breiman 和 Cutler 的 随机 森林 用 于 ”17 
发 ，Andy Liaw 和 Matthew Wieneryizhi 将 其 移植 到 R 分 类 和 回归 
R2wd Christian Ritter 从 R 撰 写 MS Word 文 档 22 
rattle Graham Williams、Mark Vere Culp、 Ed Cox、Anthony “在 R 中 用 于 数据 挖掘 的 图 形 用 户 ” 16、17 
Nolan、Denis White、Daniele Medri、Akbar Waljee “界面 
(OOB AUC for Random Forest ) 和 了 Brian Ripley 
(print.summary.nnet 的 最 初 作者 ) 
Remdr John Fox 开 发 ，Liviu Andronic 、 Michael Ash 、 R Commander 是 一 个 基于 tcltk 附录 A 
Theophilius Boye 、Stefano Calza、Andy Chang、 包 的 R 跨 平台 图 形 用 户 界面 ,可 以 
Philippe Grosjean、Richard Heiberger、G. JayKerns、 ”实现 基本 的 统计 学 分 析 
Renaud Lancelot、Matthieu Lesnoff、Uwe Ligges、 
Samir Messad、Martin Maechler、Robert Muenchen 、 
Duncan Murdoch、Erich Neuwirth、Dan Putler、Brian 
Ripley、Miroslav Ristic 和 Peter Wolf 也 作出 了 贡献 
reshape2 Hadley Wickham 灵活 地 改变 数据 形式 4.5、7、 
20 
Lele Daniel Adler 和 Duncan Murdoch 3D 可 视 化 设备 系统 (OpenGL ) 11 
RJDBC Simon Urbanek 实现 了 通过 JDBC 接 口 访问 数据 ”2 
库 的 功能 
rms Frank E. Harrell, Jt. 回归 建 模 ， 包 含 用 于 简化 或 帮助 ”13 
简化 回归 建 模 、 检 验 、 估 计 、 验 
证 、 画 图 、 预 测 和 排版 的 约 225 
个 函数 
robust Jiahui Wang、Ruben Zamar、Alfio Marazzi、Victor ”稳健 方法 的 包 13 
Yohai、Matias Salibian-Barrera、Ricardo Maronna、 
Eric Zivot、 David Rocke 、 Doug Martin、 Martin 
Maechler 和 Kjell Konis 
RODBC Brian Ripley 和 Michael Lapsley ODBC 数 据 库 访问 接口 2 
rpart Terry Therneau、Beth Atkinson 和 Brian Ripley (最 初 ”递归 分 区 和 回归 树 17 
移植 到 R 的 作者 ) 
ROracle David A. James 和 Jake Luciani R 的 Oracle 数 据 库 接口 2 































































































附录 玉 本 书 中 用 到 的 扩展 包 ”521 
( 续 ) 
扩 展 包 作 者 描 述 章 
rrcov Valentin Todorov 位 置 和 散 点 的 稳健 估计 (robust 9 
location and scatter estimation) ， 以 
及 带 高 失效 点 (high breakdown 
point) 的 稳健 多 元 分 析 
sampling Yves Tillk 和 Alina Matei 用 于 绘制 和 校正 样本 的 函数 4 
scatterplot3d Uwe Ligges 绘制 三 维 散 点 云 11 
Sem John Fox 开 发 ，Adam Kramer 和 Michael Friendly 结构 方程 模型 14 
也 作出 了 贡献 
SeqKnn Ki-Yeol Kim 和 Gwan-Su Yi， 韩 国情 报 通 信 大 学 序列 化 KNN 插 补 方法 18 
CSBio 实 验 室 
sm Adrian Bowman 和 Adelchi Azzalini 开 发 。2.0 版 本 ”用 于 非 参 回归 和 密度 估计 的 平滑 6、9 
前 都 是 由 B. D. Ripley 移 植 到 R 的 ，2.1 版 方法 
Adrian Bowman 和 Adelchi Azzalini 移 植 ， 版 本 2.2 
Adrian Bowman 移 植 
Vcd David Meyer、Achim Zeileis 和 Kurt Hornik 用 于 类 别 数据 可 视 化 的 国 数 1.6.7、 
11、12 
vegan Jari Oksanen 、F. Guillaume Blanchet、Roeland ”种群 和 植物 生态 学 家 所 使 用 的 排 9 
Kindt、Pierre Legendre、R. B. O'Hara、Gavin L. 序 方 法 (ordination method)、 多 样 
Simpson、Peter Solymos、M. Henry H. Stevens 和 性 分 析 (diversity analysis) 等 函数 
Helene Wagner 
VIM Matthias Templ 、 Andreas Alfons 和 Alexander 缺失 值 插 补 和 可 视 化 18 
Kowarik 
Xxlsx Adrian A. Dragulescu 读 写 和 格式 化 Excel 2007 (.xlsx) 2 
文件 
XML Duncan Temple Lang R 和 S-Plus 中 用 于 解析 和 生成 XML 2 





的 工具 


处 理 大 数据 集 








R 将 所 有 的 对 象 存储 在 虚拟 内 存 中 。 对 于 大 部 分 人 而 言 , 这 种 设计 可 以 带 来 很 好 的 交互 体验 ， 
但 如 果 要 处 理 大 型 数据 集 ， 这 就 会 影响 程序 的 运行 速度 ， 带 来 和 内 存 相 关 的 错误 。 
具体 的 内 存 限制 取决 于 R 的 版 本 (32 位 或 64 位 ) 和 所 使 用 的 操作 系统 。 出 现 以 cannot allocate 
vector ofsize 开 头 的 错误 信息 通常 是 因为 无 法 获得 足够 的 连续 内 存 空 间 , 以 cannot allocate vector of 
length 开 头 的 错误 信息 则 表示 超过 了 内 存 地 址 的 限制 。 在 处 理 大 型 数据 集 时 ， 应 该 尽 可 能 地 用 64 
位 版 ， 详 见 ?Memoryo 

在 处 理 大 数据 集 时 ， 要 考虑 三 个 问题 : (a) 高 效 执行 的 程序 ，(b) 将 数据 保存 到 外 部 避免 内 存 
问题 ，(c) 用 有 针对 性 的 统计 方法 高 效 地 分 析 海 量 数 据 。 我 们 会 首先 考虑 这 三 个 问题 的 简单 解决 
方法 ， 然 后 转向 处 理 大 数据 的 更 加 全 面 (复杂 ) 的 解决 方法 。 


F.1 高 效 程序 设计 


下 面 是 在 处 理 大 型 数据 集 时 有 助 于 提升 性 能 的 程序 设计 建议 。 

口 尽 可 能 地 做 向 量化 计算 。 用 R 内 建 的 函数 来 处 理 向 量 、 和 矩阵 和 列表 (例如 ifelse、 

colMeans 和 rowSums )， 而 且 要 尽量 避免 使 用 循环 ( for 和 while )。 

口 用 矩阵， 而 不 是 数据 框 (矩阵 更 轻 量 级 )。 

口 在 使 用 read .table() 系列 函数 将 外 部 数据 读 取 到 数据 框 中 时 , 显 式 地 指定 colclasses 

和 nrows， 设 置 comment .char = ""， 并 且 用 "NULL" 标 明 不 需要 的 列 。 这 可 降低 内 存 

使 用 量 ， 显 著 地 提高 处 理 速 度 。 在 将 外 部 数据 读 入 和 矩阵 时 ， 可 以 用 scan () 函数 。 

口 正确 地 初始 化 对 象 的 大 小 ， 而 不 是 通过 附加 值 增 大 较 小 的 对 象 。 

D 并 行 化 处 理 重复 、 独 立 和 数值 密集 的 任务 。 

口 在 完整 的 数据 集 上 运行 程序 之 前 ， 先 用 数据 的 子 集 测试 程序 ， 以 便 优 化 代码 并 消除 bug。 

口 删除 临时 对 象 和 不 再 需要 的 对 象 。 调 用 rm(1ist=1s () ) 会 从 内 存 中 删除 所 有 的 对 象 ， 得 
到 一 个 干净 的 环境 。 要 删除 特定 的 对 象 , 可 以 用 rm(objecp)。 删除 较 大 对 象 之 后 , 调用 gc () 
会 初始 化 垃圾 回收 ， 保 证 从 内 存 中 清除 这 些 对 象 。 

口 Jeromy Anglim 在 博客 文章 “Memory Management in R: A Few Tips and Tricks”( jeromyang 
lim.blogspot.com ) 中 介绍 了 .1s.objects () 函数 ， 它 可 以 使 工作 空间 中 的 所 有 对 象 按 大 
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小 (MB ) 排列 。 这 个 函数 可 以 帮 你 找到 内 存 消耗 的 大 户 。 

口 测试 程序 中 每 个 函数 所 消耗 的 时 间 。 用 Rprof () 和 summaryRprof () 函数 就 可 以 完成 这 
个 测试 。system.time() 函数 也 能 用 得 上 。profr 和 prooftools 包 提供 用 于 分 析 测 试 
结果 的 函数 。 

口 使 用 编译 的 外 部 例 行 程 序 来 加 速 程序 运行 。Rcpp 包 可 以 将 R 对 象 转换 成 C++ 函数 ; 如 果 需 
要 更 加 优化 的 子 程序 ， 还 可 以 转换 回来 。 

20.4 节 提供 了 向 量化 、 高 效 数据 和 输入、 正确 初始 化 对 象 大 小 和 并 行 化 的 例子 。 

在 处 理 大 数据 集 时 ， 提 高 代码 性 能 只 能 走 到 这 一 步 。 在 遇 到 内 存 限制 时 ,我 们 还 可 以 将 数据 

保存 到 外 部 存储 器 中 ， 并 使 用 特殊 的 分 析 方 法 。 


F.2 在 内 存 之 外 存储 数据 
有 好 几 个 包 可 以 将 数据 存储 在 R 的 主 内 存 之 外 。 主 要 的 方法 是 将 数据 存储 在 外 部 数据 库 中 ， 


































































































或 是 硬盘 上 的 二 进 制 文件 中 ,然后 再 按 需 要 访问 其 中 的 某 个 部 分 。 表 F-1 中 列 出 了 一 些 有 用 的 包 。 
表 F-1 用 于 访问 大 型 数据 集 的 R 包 
包 描 述 
bigmemory 支持 大 型 矩阵 的 创建 、 存 储 、 访 问 和 操作 。 和 矩阵 可 以 分 配 在 共享 内 
存 和 内 存 映射 文件 中 
ff 提供 了 一 种 数据 结构 ， 可 以 将 数据 保存 到 硬盘 上 ， 但 用 起 来 却 像 是 
在 内 存 中 
filehash 实现 了 一 个 简单 的 key-value 数 据 库 ， 用 字符 串 的 键 值 关 联 到 硬盘 上 
存储 的 数据 值 
ncdf、 ncdf4 提供 了 Unidate netCDF 数 据 文件 的 接口 
RODBC、RMySQL、ROracle、RPostgreSQL、 ”这 些 包 每 一 个 都 可 用 于 访问 相应 的 外 部 关系 型 数据 库 管 理 系统 


























RSQLite 


上 面 介绍 的 这 些 包 都 可 用 于 解决 R 在 保存 数据 时 的 内 存 限制 问题 。 不 过 , 在 分 析 大 数据 集 时 ， 
还 需要 专门 的 方法 在 可 接受 的 时 间 内 完成 分 析 。 下 面 会 介绍 其 中 最 有 用 的 一 些 。 


F.3 用 于 大 数据 的 分 析 包 


R 有 如 下 几 个 用 于 分 析 大 型 数据 集 的 包 。 

D biglm 和 speedglm 包 能 以 内 存 高 效 的 方式 实现 大 型 数据 集 的 线性 模型 拟 合 和 广义 线性 模 

型 拟 合 。 

口 有 好 几 个 包 是 用 来 分 析 bigmemory 包 生成 的 大 型 矩阵 的 。biganalytics 包 提供 了 K 均 值 
聚 类 、 列 统计 和 一 个 biglm 的 封装 。bigtabulate 包 提供 了 table() 、split() 和 
tapply () 功 能 ; pigalgebra 包 提供 了 高 级 的 线性 代数 函数 。 

口 biglars 包 跟 ff 配合 使 用 ， 为 在 内 存 中 无 法 放置 的 大 数据 提供 了 最 小 角 回 归 ( least-angle 
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regression )、lasso 和 逐步 回归 分 析 。 

Daata.table 包 提供 了 data.frame 的 增强 版 ， 包 括 更 快 的 聚集 ， 更 快 的 有 序 、 重 释 范 围 
联接 ， 以 及 更 快 根据 参考 组 (无 副本 ) 进行 列 相 加 、 修 改 和 删除 。 我 们 可 以 使 用 带 有 大 
型 数据 集 的 aata.table 结 构 (例如 , 内存 100GB )， 它 与 任意 期 望 得 到 数据 框 的 R 函 数 都 

飞人 合 。 

这 些 包 能 容纳 用 于 特殊 目的 的 大 数据 集 ， 并 且 相 对 容易 使 用 。 对 于 处 理 TB 级 分 析 数 据 的 解 

决 方案 ,将 在 下 面 描述 。 


F.4 超大 数据 集 的 全 面 解决 方案 


至 少 有 五 个 项 目 旨 在 方便 地 使 用 R 来 处 理 TB 级 数据 集 ， 其 中 有 三 个 是 免费 开源 的 (RHIPE、 
RHadoop 和 pbdr )， 另 外 两 个 是 商业 产品 ( Revolution R Enterprise 、RevoScaleR 和 Oracle R 
Enterprise )。 每 个 均 需 要 对 高 性 能 计算 有 一 定 的 了 解 。 

RHIPE 包 ( http:/www.datadr.org ) 提供 了 将 R 和 Hadoop (一 个 基于 Java 的 免费 软件 架构 ， 用 于 
在 分 布 式 环境 下 处 理 大 数据 ) 深度 融合 的 编程 环境 。 该 包 的 作者 还 开发 了 其 他 的 软件 ,提供 了 对 
于 非常 大 的 数据 集 进行 “分 裂 与 重组 ”和 数据 可 视 化 方法 。 

RHadoop 项 目 提 供 了 R 包 封装 的 集合 , 用 于 管理 和 分 析 Hadoop 上 的 数据 。rmr 包 在 R 内 部 提供 
了 Hadoop 的 MapReduce 功 能 ，rhdafs 和 rzrhbase 包 支持 HDFS 文 件 系统 和 HBASE 数 据 存储 上 的 访 
问 。 维基 ( https://github.com/RevolutionAnalytics/RHadoop/wiki ) 上 介绍 了 该 项 目 并 提供 了 相关 教 
程 。 需 要 注意 的 是 RHadoop 包 必须 从 GitHub 上 而 不 是 CRAN 上 安装 。 

pbdR (programming with big data in R ) 项 目 通过 一 个 简单 的 界面 到 达 可 扩展 、 高 性 能 的 库 ( 如 
MPI、ScaLAPACK 和 netCDF4 ), 使 其 能 够 在 R 中 进行 高 级 别 的 数据 并 行 运算 。pbdR 软 件 在 大 规模 
计算 集群 上 还 支持 单线 程 多 数据 ( SPMD ) 模型 。 可 以 通过 访问 http://r-pbd.org/ 了 解 详细 信息 。 

Revolution R Enterprise ( http://www.revolutionanalytics.com ) 是 R 的 一 个 商业 版 本 ， 包 括 一 个 
支持 可 扩展 数据 分 析 和 高 性 能 计算 的 包 RevoSscaleR。RevoScaleR 使 用 二 进 制 XDF 格 式 的 数据 
文件 从 磁盘 到 内 存 优化 流 数据 , 并 提供 了 一 系列 常见 的 大 数据 统计 分 析 算法 。 你 可 以 执行 数据 管 
理 任 务 ， 并 在 TB 级 数据 集 上 获得 汇总 统计 、 交 叉 表格 、 相 关 性 和 协 方差 、 非 参数 统计 、 线 性 和 
广义 线性 回归 、 逐 步 回 归 、K-means 聚 类 以 及 分 类 和 回归 树 。 此 外 ，Revolution R Enterprise 可 以 
和 Hadoop ( 通过 RHadoop 包 ) 及 IBM 的 Netezza ( 通过 IBMPureData 分 析 系 统 的 插件 ) 集成 。 在 写 
这 段 文字 的 时 候 ， 学 术 圈 中 的 学 生 和 教授 可 以 获得 免费 的 软件 订阅 〈 不 包括 IBM 组 件 )。 

最 后 ，Oracle R Enterprise ( http://www.oracle.com ) 是 一 种 商业 产品 ， 可 用 于 使 用 R 环 境 操作 
存储 在 甲骨 文 数据 库 和 Hadoop 上 的 大 规模 数据 集 。Oracle R Enterprise 是 甲骨 文 高 级 分 析 的 一 部 
分 ， 需 要 安装 在 甲骨 文 的 企业 版 数据 库 上 。 几 乎 R 的 所 有 功能 ， 包 括 数 以 千 计 的 贡献 包 ， 都 可 以 
使 用 Oracle R _ Enterprise 界面 应 用 于 TB 级 的 数据 问题 。 这 是 一 个 相对 昂贵 但 全 面 的 解决 方案 ， 主 
要 吸引 财力 雄厚 的 大 企业 。 

不 论 用 哪 种 语言 ， 处 理 GB 到 TB 级 范围 内 的 数据 集 都 是 一 种 挑 成 。 这 些 方法 都 带 有 一 个 显著 
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的 学 习 曲 线 。 在 四 个 包 中 ，RevoSscaleR 也 许 是 最 容易 学 习 和 安装 的 。( 重要 声明 : 我 是 教授 
Revolution R 课 程 的 老师 ， 可 能 会 有 所 偏爱 该 包 。) 

有 关 分 析 大 型 数据 集 的 其 他 信息 可 以 从 CRAN 的 任务 视图 “High-Performance and Parallel 
Computing with R”( http://cran.r-project.org/web/views ) 上 得 到 。 这 是 一 个 正在 迅速 变化 和 发 展 的 
领域 ， 所 以 一 定 要 经 常 检查 。 





更 新 R 











作为 消费 者 ， 我 们 理所当然 地 认为 可 以 通过 一 个 检查 更 新 按钮 升级 软件 。 在 第 1 章 中 ,我 们 
知道 update .packages () 可 以 下 载 和 安装 最 新 版 的 第 三 方 扩展 包 。 遗 憾 的 是 ， 升 级 R 自 身 可 能 
非常 复杂 。 

如 果 要 将 R 5.1.0 升 级 到 R 6.1.1， 必 须 得 动 动脑 子 。( 在 我 写 这 本 书 时 ， 最 新 的 版 本 是 3.1.1， 
但 我 希望 这 本 书 能 够 跟 上 未 来 若干 年 的 发 展 。) 这 里 讲述 两 个 方法 : 使 用 installr 包 自动 安装 ， 
以 及 所 有 平台 都 可 以 使 用 的 手动 方法 。 




















G.1 自动 安装 〈 仅 适用 于 Windows) 


如 果 你 是 一 名 Windows 用 户 , 可 以 使 用 installr 包 来 更 新 R 安 装 过 程 。 首 先 安装 该 包 并 加 载 : 


install.packages ("installr") 
library (installr) 


这 为 RGui 增 加 了 一 个 更 新 菜单 ( 见 图 G-1 )。 


RR RGui (64-bit} 









































File Edit View Misc Packages Windows Help 
回国 品名 电 包 Updste 
| Update R packages 二 
民 Rconsole Jnstall software Eed| Os 
> library (installr) Manage Windows 


Load 'installr on startup 
Welcome to installr version 0.15.3 

















图 G-1 jinstallr 包 为 RGui 增 加 的 更 新 菜单 








该 菜单 允许 你 安装 R 的 新 版 本 ,更 新 现 有 的 包 ，, 以 及 安装 其 他 有 用 的 软件 生产 ( 如 RStudio )。 


目前 ，installr 包 仪 适用 于 Windows 平 台 。 对 于 Mac 用 户 或 者 不 希望 使 用 installr 的 Windows 
用 户 ， 更 新 R 通 常 是 一 个 手动 过 程 。 





G.2 ”手动 安装 (Windows 和 Mac OS X) 





从 CRAN (http://cran.r-project.org/bin/ ) 下 载 和 安装 最 新 版 的 R 是 比较 简单 的 。 麻 烦 的 地 方 是 


XE 


要 重新 设置 各 种 自 定义 选项 (包括 之 前 安装 的 扩展 包 )。 在 当前 所 使 用 的 R 中 ， 我 安装 了 500 多 个 
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扩展 包 。 我 真心 不 想 在 升级 R 的 时 候 把 这 些 扩展 包 的 名 字 一 个 个 写 下 来 ， 然 后 手动 重新 安装 。 
在 网 络 上 有 很 多 关于 如 何 高 效 优雅 地 更 新 R 的 讨论 。 下 面 介绍 的 方法 既 不 优雅 ， 也 不 高 效 ， 
但 我 发 现 它 在 Windows 和 Mac 上 都 可 以 很 好 地 使 用 。 
在 这 里 , 我 们 用 installed.packages () 函数 保存 R 目 录 树 之 外 的 扩展 包 清单 , 然后 根据 这 
个 清单 用 instal1.packages () 函数 将 最 新 版 的 扩展 包 下 载 和 安装 到 新 版 R 中 。 操 作 步 骤 如 下 。 
(1) 如 果 有 自 定义 的 Rprofile.site 文 件 ( 见 附录 B )， 将 其 保存 到 R 目 录 树 之 外 。 
(2) 启动 当前 版 本 的 R， 然 后 执行 下 面 的 命令 : 


oldip <- installed.packages()[,1] 
save (oldip, file="path/installedPackages.Rdata") 


其 中 path 是 R 之 外 的 目录 。 

(3) 下 载 安装 新 版 的 R。 

(4) 如 果 在 步 又 (1) 保 存 了 自 定 义 的 Rprofile.site 文 件 ， 现 在 把 它 复制 到 新 的 R 中 。 
(5) 启动 新 版 本 的 R， 然 后 执行 下 面 的 命令 : 
load("path/installedPackages.Rdata") 

newip <- installed.packages()[,1] 

for(i in setdiff(oldip, newip))t{ 


install .packages (i) 


} 

其 中 patn 是 步骤 (2) 中 设置 的 位 置 。 

(6) 删除 旧版 本 ( 可 选 )。 

这 种 方法 只 能 安装 CRAN 上 的 扩展 包 , 不 会 安装 从 其 他 地 方 获取 的 包 。 你 需要 自行 寻找 和 下 
载 这些 包 。 不 过 ， 你 可 以 知道 哪些 包 不 能 安装 。 我 在 上 次 安装 R 时 发 现 不 能 找到 globaltest 和 
Biobase。 因 为 我 是 从 Bioconductor 网 站 上 安装 这 两 个 扩展 包 的 ， 能 用 下 面 的 命令 安装 ; 

source("http://bioconductor.org/biocLite.R") 


biocLite("globaltest") 
biocLite("Biobase") 


步骤 (6) 可 以 选择 将 老 版 本 的 R 删 除 。 在 Windows 系 统 上 可 以 同时 安装 多 个 版 本 的 R。 如 果 需 
要 的 话 ， 可 以 通过 “Start” 一 “Control Panel” 一 “Uninstall a Program” 钙 载 旧 版 本 的 R。 要 在 
Mac 系 统 上 ， 新 版 的 R 会 覆盖 老 版 本 。 在 Mac 上 要 删除 剩余 的 东西 ， 可 以 用 Finder 打 开 
/Library/Frameworks/R.frameworks/versions/， 删 除 其 中 旧版 本 的 文件 夹 。 

显然 , 手动 更 新 R 比 想象 的 要 复杂 得 多 。 我 希望 能 有 一 天 ,这 个 附录 只 需要 一 句 话 :“ 选 择 检 
查 更 新 选项 。 










































































G.3 更 新 R (Linux) 


在 Linux 平 台 上 更 新 R 的 过 程 完全 不 同 于 Windows 和 Mac OS X。 此 外 ， 对 于 不 同 的 Linux 发 行 版 
( Debian、Red Hat、SUSE 或 Ubuntu ) 方 法 也 有 所 不 同 。 详细 信息 参见 https://cran.r-project.org/bin/linux/。 








后 记 : 探索 R 的 世 秀 





在 这 本 书 里 ， 我 们 已 经 介绍 了 R 的 方方面面 ， 主 要 内 容 包 括 R 开 发 环境 、 数 据 管理 、 传 统 的 
统计 模型 和 统计 图 形 。 我 们 还 涉及 了 一 些 较 高 阶 的 内 容 , 例如 重 抽样 统计 、 缺 失 值 插 补 和 交互 式 


























图 形 。R 最 强大 的 地 方 (也 有 可 能 是 最 让 人 头疼 的 地 方 ) 就 是 ， 其 中 永远 都 有 学 不 完 的 东西 。 
R 是 一 个 庞大 、 健 壮 而 且 在 不 断 进 化 的 统计 平台 和 编程 语言 。 面 对 无 数 的 新 软件 包 、 频 繁 的 





























更 新 以 及 新 的 发 展 方向 ， 用 户 怎 么 才能 屹立 潮 头 ?幸运 的 是 ,很 多 网 站 支持 着 这 个 活跃 的 社区 ， 


提供 从 平台 到 软件 包 更 新 ， 


最 喜欢 的 网 站 。 

















口 The R Project (http:/www.r-project.org ) 


从 新 的 使 用 方法 到 各 种 教程 等 各 种 跟 R 有 关 的 内 容 。 下 面 列 出 一 些 我 











这 是 R 的 官方 网 站 ， 也 是 进入 R 世 界 的 第 一 站 。 网 站 上 有 丰富 的 文档 ， 包 括 “An Introduction 
to R “The R Language Definition” “Writing R Extensions” “R Data Import/Export” “R Installation 





and Administration” 以 及 























“The R FAQ”, 
口 The R Journal (http://journal.r-project.org ) 

这 是 一 个 免费 期 刊 ， 每 篇 文章 都 经 过 评审 ， 内 容 包括 R 项 目 本 身 以 及 各 种 软件 包 。 
口 R Bloggers (http://www.r-bloggers.com ) 

















这 是 一 个 博客 聚合 网 站 ， 其 中 内 容 来 自 跟 R 有 关 的 博客 ， 每 天 都 会 有 新 的 文章 。 这 是 我 每 天 


必 去 的 网 站 。 








这 也 是 一 份 免 费 期 刊 




















口 Planet R (http://planetr.stderr.org ) 

这 也 是 一 个 优秀 的 聚合 网 站 ， 其 中 有 各 种 来 源 的 信息 。 每 天 更 新 。 
口 CRANberries (http://dirk.eddelbuettel.com/cranberries ) 

这 个 网 站 聚合 了 关于 新 软件 包 和 软件 包 更 新 的 消息 ， 提 供 了 每 个 包 在 CRAN 上 的 链接 。 

口 Journal of Statistical Software (http:/wwwjstatsoft.org ) 

， 文 章 都 是 经 过 评审 的 , 包括 原创 文章 、 书 评 和 关于 统计 计算 的 代码 片 








段 。 其 中 大 部 分 文章 是 关于 R 的 。 




















口 Revolutions (http://blog.revolution-computing.com ) 
这 是 一 个 广 受 欢迎 、 条 理 明晰 的 博客 ， 专 注 于 跟 R 有 关 的 新 闻 和 信息 。 
口 CRAN Task Views (http://cran.r-project.org/web/views ) 


通过 任务 视图 (task view ) 可 以 看 到 R 在 各 种 学 术 和 研究 领域 的 应 用 情况 。 每 个 任务 视图 都 
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介绍 了 一 个 领域 中 的 包 和 方法 。 现 在 总 共有 33 个 任务 视 


CRAN 任 务 视图 





图 ( 详 见 下 表 )。 





Bayesian Inference 

Chemometrics and Computational Physics 
Clinical Trial Design, Monitoring, and Analysis 
Cluster Analysis Finite Mixture Models 
Differential Equations 


Probability Distributions 


Computational Econometrics 

Analysis of Ecological and Environmental Data 

Design of Experiments (DoE) Analysis of Experimental Data 
Empirical Finance 

Statistical Genetics 

Graphic Displays Dynamic Graphics Graphic Devices Visualization 
High-Performance and Parallel Computing with R 

Machine Learning Statistical Learning 

Medical Image Analysis 

Meta-Analysis 


Multivariate Statistics 


Natural Language Processing 

Numerical Mathematics 

Official Statistics Survey Methodology 
Optimization and Mathematical Programming 
Analysis of Pharmacokinetic Data 


Phylogenetics, 
Methods 


Psychometric Models and Methods 
Reproducible Research 
Robust Statistical Methods 


Statistics for the Social Sciences 


Especially Comparative 


Analysis of Spatial Data 

Handling and Analyzing Spatio-Temporal Data 
Survival Analysis 

Time Series Analysis 

Web Technologies and Services 

gRaphical Models in R 


口 R-Help Main R Mailing List (https://stat.ethz.ch/mailman/listinfo/r-help ) 











电子 邮件 列表 是 问 问题 的 最 佳 场所 。 








仔细 阅读 FAQ。 


口 Cross Validated ( http://stats.stackexchange.com ) 




















凶 件 列表 的 存档 也 是 可 以 搜索 的 。 但 在 问 问题 之 前 请 先 


对 统计 学 和 数据 科学 感 兴 趣 者 的 问答 网 站 。 这 是 个 提出 关于 R 的 问题 以 及 查看 其 他 人 问题 的 


好 地 方 。 


口 Quick-R (http:/www.statmethods.net ) 








这 是 我 的 网 站 。 其 中 包括 80 篇 关于 R 的 简要 教程 。 不 多 说 ， 我 得 低调 点 。 











R 社 区 是 一 个 乐于 助人 、 生 机 勃勃 、 激 情 四 射 的 社区 。 欢 迎 来 到 这 个 神奇 的 世界 ! 
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延 展 阅读 


清理 从 各 种 来 源 导 入 的 数据 

通过 可 视 化 和 汇总 统计 理解 数据 

a 使 用 统计 模型 传递 关于 数据 的 定量 判断 并 进行 预测 
A 了 解 编写 数据 分 析 代码 时 出 现 错误 的 应 对 措施 


I 四 灵 程 序 设计 从 书 
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本 书 基 于 易于 理解 且 具 有 数据 科学 相关 的 丰富 的 库 的 Python 语言 环境 ， 从 零 开始 讲解 数据 
科学 工作 。 具 体内 容 包括 : Python 速成 ， 可 视 化 数据 ， 线 性 代数 ， 统 计 ， 概 率 ， 假 设 与 推 
断 ， 梯 度 下 降 法 ， 如 何 获取 数据 ，k 近 邻 法 ， 朴 素 贝 叶 斯 算法 ， 等 等 。 
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本 书 适合 熟悉 Python 的 程序 员 、 安 全 专业 人 士 、 网 络 管理 员 阅 读 。 书 中 不 仅 介 绍 了 网 络 数 
据 采 和 集 的 基本 原理 ， 还 深入 探讨 了 更 高 级 的 主题 ， 比 如 分 析 原 始 数据 、 用 网 络 候 虫 测试 网 
站 等 。 此 外 ， 书 中 还 提供 了 详细 的 代码 示例 ， 以 帮助 你 更 好 地 理解 书 中 的 内 容 。 
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本 书 由 Spark 开 发 者 及 核心 成 员 共 同 打 造 ， 讲 解 了 网 络 大 数据 时 代 应 运 而 生 的 、 能 高 效 迅 
捷 地 分 析 处 理 数据 的 工具 一 一 Spark， 它 带领 读者 快速 掌握 用 Spark 收 集 、 计 算 、 简 化 和 
保存 海量 数据 的 方法 ， 学 会 交互 、 迭 代 和 增 量 式 分 析 ， 解 决 分 多、 数据 本 地 化 和 自 定义 
序列 化 等 问题 。 
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延 展 阅读 


本 书 首先 介绍 了 Spark 及 其 生态 系统 ， 接 着 详细 介绍 了 将 分 类 、 协 同 过滤 及 异常 检查 等 党 
用 技术 应 用 于 基因 学 、 安 全 和 人 金融 领域 的 若干 模式 。 如 果 你 对 机 器 学 习 和 统计 学 有 基本 的 
了 解 ， 并 且 会 用 Java、Python 或 Scala 编 程 ， 这 些 模式 将 有 助 于 你 开发 自己 的 数据 应 用 。 
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和 定价 : 59.00 元 
| | 。 大 数据 时 代 的 实战 宝典 ， 谷 歌 、 微 软 、eBay 等 公司 一 线 数据 科学 家 真知 灼 见 ， 揭 秘 数据 科 
学 相关 的 最 新 算法 、 方 法 与 模型 。 本 书 适合 所 有 希望 通过 数据 分 析 解 决 问题 的 人 阅读 参考 ， 
包括 数据 科学 家 、 人 金融 工程 师 、 统 计 学 家 、 物 理学 家 、 学 生 及 其 他 对 数据 科学 感 兴 趣 的 人 。 
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本 书 整合 了 社会 媒体 、 社 会 网 络 分 析 以 及 数据 挖掘 的 相关 知识 ， 为 学 生 、 从 业者 、 研 究 
人 员 和 项 目 经 理 理解 社会 媒体 挖掘 的 基础 知识 和 潜能 ， 提 供 了 一 个 方便 的 平台 。 本 书 介 
绍 了 社会 媒体 数据 独 有 的 问题 ， 并 阐述 了 网 络 分 析 以 及 数据 挖 扬中 的 基本 概念 、 新 出 现 
的 问题 和 有 效 的 算法 。 
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Ennsatus 是 本 书 为 了 解数 据 可 视 化 的 重要 内 容 和 功能 提供 了 多 学 科 的 视角 ， 通 过 各 种 各 样 的 案例 分 
亚 析 ， 来 演示 可 视 化 如 何 让 数据 变 得 更 清晰 、 更 全 面 ， 通 过 对 数据 可 视 化 的 广泛 用 途 和 适 
洞悉 数据 a 
用 可视化 方法 发 所 数据 不 性 的 讨论 ， 来 了 解 它 如 何 让 数据 变 得 更 加 让 人 容易 接受 和 理解 。 
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turingbooks ituring_interview 


大 数据 时 代 已 经 到 来 ， 在 商业 、 经 济 及 其 他 
领域 中 基于 数据 和 分 析 去 发 现 问题 并 作出 科学 、 
客观 的 决策 越 来 越 重 要 。 开 源 软 件 R 是 世界 上 最 
流行 的 数据 分 析 、 统 计 计算 及 制图 语言 ， 几 乎 能 
够 完成 任何 数据 处 理 任务 ， 可 安装 并 运行 于 所 有 
主流 平台 ， 为 我 们 提供 了 成 千 上 万 的 专业 模块 和 
实用 工具 ， 是 从 大 数据 中 获取 有 用 信息 的 绝 佳 工 
具 ， 是 数据 挖掘 、 数 据 分 析 人 才 的 必 备 技能 。 

本 书 从 解决 实际 问题 入 手 ， 尽 量 跳 脱 统计 学 
的 理论 阐述 来 讨论 R 语 言及 其 应 用 ， 讲 解 清晰 透 
澈 ， 极 具 实 用 性 。 作 者 不 仅 高 度 概括 了 R 语 言 肯 
强大 功能 ， 展 示 了 各 种 实用 的 统计 示例 ， 而 且 对 
于 难以 用 传统 方法 分 析 的 凌乱 、 不 完整 和 非 正 态 
的 数据 也 给 出 了 完备 的 处 理 方法 。 第 2 版 新 增 6 
章 内 容 ， 涵 盖 时 间 序 列 、 聚 类 分 析 、 分 类 、 高 级 
编程 、 创 建 包 和 创建 动态 报告 等 ， 并 分 别 详细 介 
绍 了 如 何 使 用 ggp1ot2 和 1attice 进 行 高 级 绘 
图 。 通 读本 书 ， 你 将 全 面 掌握 使 用 R 语 言 进行 数 
据 分 析 、 数 据 挖掘 的 技巧 ， 领 略 大 量 探索 和 展示 
数据 的 图 形 功能 ， 并 学 会 如 何 撰写 动态 报告 ， 从 
而 更 加 高 效 地 进行 分 析 与 沟通 。 

想 要 成 为 备 受 高 科技 企业 追捧 的 数据 分 析 师 
吗 ? 想 要 科学 分 析 数 据 并 正确 决策 吗 ? 不 妨 从 本 
书 开 始 ， 挑 战 大 数据 ， 用 R 开 始 炫 酷 地 统计 与 分 
析 数 据 吧 ! 


| MANNING 
图 灵 社 区 : iTuring.cn 
热线 : (010)51095186 转 600 


分 类 建议 让 汗 算 机 /程序 设计 /R 


人 民 邮 电 出 版 社 网 址 : www.ptpress.com.cn 


“对 于 所 有 使 用 及 语言 进行 数据 分 析 

的 人 来 讲 ， 本 书 都 是 必 不 可 少 的 ， 不论 
用 于 业内 实践 还 是 学 术 研 究 。” 

一 一 Cristofer Weber 

NeoGrid 软 件 架 构 师 


言 问题 与 许多 统计 学 问题 
一 一 George Gaines 
KYOS Systems 公 司 首席 运营 官 


语言 易 懂 ， 示例 真实 ， 代码 清 青 晰 。 


一 一 Samuel D. McQuillin 
休斯顿 大 学 心理 学 院 助 理 教授 


“为 R 语 言 初学 者 提供 了 柔和 的 学 习 
曲线 。 39 

一 一 Indrajit Sen Gupta 

就 职 于 Mu Sigma 数 据 分 析 公 司 


ey gn 站 1 A 2 
”定价 : 99.00 元 





看 完了 


如 果 您 对 本 书 内 容 有 疑问 ， 可 发 邮件 至 contact@turingbook.com， 会 有 编辑 或 作 
译 者 协助 答疑 。 也 可 访问 图 灵 社 区 ， 参 与 本 书 讨论 。 


如 果 是 有 关 电 子 书 的 建议 或 问题 ， 请 联系 专用 客服 邮箱 : 


ebook@turingbook.com。 
在 这 可 以 找到 我 们 : 


微 博 @ 图 灵 教育 : 好 书 、 活 动 每 日 播报 

微 博 @ 图 灵 社 区 : 电子 书 和 好 文章 的 消息 

微 博 @ 图 灵 新 知 : 图 灵 教 育 的 科普 小 组 

微 信 图 灵 访 谈 : ituring_interview， 讲 述 码 农 精彩 人 生 
微 信 图 灵 教 育 : turingbooks 


